Dicas para não errar no uso das stats
Seja qual for o seu trabalho, essas três dicas será úteis sempre!
Todo mundo que trabalha com dados em suas profissões – não necessariamente no esporte – se depara diariamente com um enorme volume de informações. Já falamos aqui no DataFooture sobre o ruído dos números. Agora vou dar três dicas simples para você não errar mais no uso das estatísticas. Bora?
É bom relembrar que há uma diferença significativa entre o analista que trabalha em clube de futebol, o que é jornalista/comunicador e quem é um fanalytic: o cliente. Para quem estamos falando e entregando nossas análises muda completamente o sentido do trabalho.
De todas as formas, essas dicas permitirão que você questione seu trabalho e sempre o coloque onde ele deve estar, na prateleira da dúvida. Ainda mais no futebol, onde não há certezas absolutas e o caos é praticamente regra.
DICA #01 – VALOR-P É SÓ UM TESTE DE AMOSTRA
Na estatística clássica, o valor-p (também chamado de nível descritivo ou probabilidade de significância), é a probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula.
Resumindo, é o valor que mostra que o seu cálculo está próximo da realidade. Quanto maior a base analisada, a tendência é que seu valor-p seja cada vez menor. E mesmo se seu valor-p seja 0,00001 ele não significa que sua amostra cobre a totalidade do que precisa ser analisado.
Ao montar um algoritmo ou um índice de performance para medir qualquer ação em campo, mesmo que eu use uma base comparativa imensa e meu valor-p seja minúsculo, eu nunca conseguirei cobrir toda a verdade sobre aquilo. Principalmente no futebol, onde muitos fatores externos influenciam (campo, clima, torcida, etc) e o esporte em sí mudou muito ao longo dos anos.
Por isso, mesmo com um valor-p próximo a ZERO, saiba que no futebol sempre haverá margem para o contraditório e que esse seu cálculo e essa sua análise não representam a totalidade da realidade, e sim um teste da amostra que você analisou.
DICA #02 – CORRELAÇÃO NÃO IMPLICA EM CAUSALIDADE
Essa dica vale para qualquer trabalho estatístico, mas PRINCIPALMENTE pra quem trampa com futebol. Tendemos a buscar causalidade em tudo no esporte, ignorando o fator do imprevisto e do caótico. E em um esporte jogado com os pés na maioria das suas ações, causalidade não sempre é o que parece.
Um exemplo clássico é aquela ideia de “mais posse de bola implica em jogar melhor”. Falando de análise de dados, temos que buscar correlações entre posse de bola e estatísticas que pra gente representem “jogar melhor”. Quem tem mais posse faz mais gols? Finaliza mais a gol? É mais intenso ofensivamente? Ganha mais pontos?
No caso, o que vale a pena OBJETIVAMENTE é isso: buscar correlações dentro da base de dados que temos e pensando no nosso cliente final. Quanto mais correlações eu tiver, melhor embasado estarei ao emitir minha opinião em um relatório, em um microfone ou em uma rede social.
Mesmo assim, eu posso ter muitas correlações e isso não implicará necessariamente na explicação definitiva da causalidade de um conceito ou fato. Sim, até mesmo pra você aí que conseguiu um valor-p minúsculo, essa dica vale muito.
DICA #03 – PROCURE E VOCÊ ENCONTRARÁ
Quando nos deparamos frente a um imenso volume de dados, precisamos previamente saber o que buscamos. Se não, além do ruído, ficaremos perdidos e hipnotizados. E muitas vezes, no primeiro olhar, o que buscamos não aparece ali nos dados.
Muitas vezes recorri à base de dados para provar uma teoria minha, ou uma análise individual de um atleta. E não achei a resposta que eu queria ou que eu esperava. Mas já aconteceu também de, nesse processo, terminar encontrando OUTRAS coisas que eu não esperava. Ou até mesmo a contradição do que eu queria provar.
Por isso, tenha paciência e esteja sempre com a mente aberta para confrontar as estatísticas. Se você chegar com uma análise prévia aos números, poderá não encontrar o que buscava mas muitas possibilidades novas podem se abrir e elevar sua análise a um outro patamar.
Comente!