O uso de Clusters para criar contexto no Analytics

Recurso para criar contexto na análise de dados

Uma palavra que você leu bastante aqui nos posts do Data Footure foi: “contexto”. Isso porque quando falamos de análise de dados aplicada ao futebol, não há como ser eficiente sem colocar nossos números dentro de um contexto. E é nessa hora que os CLUSTERS aparecem para salvar a lavoura.

A análise de cluster é uma técnica estatística usada para classificar elementos em grupos, de forma que esses elementos dentro de um mesmo cluster sejam muito parecidos, e os elementos em diferentes clusters sejam distintos entre si.

Para definir a semelhança – ou diferença – entre os elementos é usada uma função de distância, que precisa ser definida considerando o CONTEXTO do problema em questão.

A idéia básica é que elementos que componham um mesmo cluster devem apresentar alta similaridade, mas devem ser muito dissimilares de objetos de outros clusters. Ou seja, toda clusterização é feita com objetivo de maximizar a homogeneidade dentro de cada cluster e maximizar a heterogeneidade entre clusters. 

A grande vantagem do uso das técnicas de Clusterização é que, ao agrupar dados similares, pode-se descrever de forma mais eficiente e eficaz as características peculiares de cada um dos grupos identificados. Isso fornece um maior entendimento do conjunto de dados original, além de possibilitar o desenvolvimento de esquemas de classificação para novos dados e descobrir correlações interessantes entre os atributos dos dados que não seriam facilmente visualizadas. 

Método de Clusterização por Grafos | Fonte: Internet

Por exemplo, se você for analisar a probabilidade de gol das finalizações (xG/F) de uma equipe em certo campeonato, vale separar os jogos em clusters. Você pode criar o contexto que lhe interesse. Um bem simples seria “jogos em casa” e “jogos de visitante”.

Mas você também pode cavar mais nesses clusters e criar um contexto mais preciso. Dentro desses 2 clusters iniciais, criar sub clusters como “adversário marca por encaixe”, “adversário marca por setor”, “PPDA do adversário”, etc.

E assim entender melhor em que condições o time analisado cria chances MELHORES e MAIORES. E a partir daí, definir desde metodologia de treino à estratégias de jogos futuros. Vai depender do que você quer saber dos números.

Recurso de Clusterização do Tableau | Fonte: Tableau

Há várias classificações de algoritmos de Clusterização, e você pode criar clusters em programas como Excel, Tableau, R e Phyton. Ai vai pelo gosto do cliente. A questão é: se você quer contextualizar os dados, os clusters irão salvar sua vida. Use sem moderação!

*OBS: o DataFooture vai dar um break de férias e voltamos em janeiro de 2021. Obrigado pela parceria e boas festas a todos!

Compartilhe

Comente!

Tem algo a dizer?

Últimas Postagens

Guia do Brasileirão: Vitória

Guia do Brasileirão: Vitória

Douglas Batista
Guia do Brasileirão: Vasco

Guia do Brasileirão: Vasco

Gabriel Mota
Guia do Brasileirão: São Paulo

Guia do Brasileirão: São Paulo

Vinícius Dutra
Guia do Brasileirão: Red Bull Bragantino

Guia do Brasileirão: Red Bull Bragantino

Vinícius Dutra
Guia do Brasileirão: Palmeiras

Guia do Brasileirão: Palmeiras

Vinícius Dutra
Guia do Brasileirão: Juventude

Guia do Brasileirão: Juventude

Vinícius Dutra
Guia do Brasileirão: Internacional

Guia do Brasileirão: Internacional

Vinícius Dutra
Guia do Brasileirão: Grêmio

Guia do Brasileirão: Grêmio

Vinícius Dutra
Guia do Brasileirão: Fortaleza

Guia do Brasileirão: Fortaleza

Douglas Batista
Guia do Brasileirão: Fluminense

Guia do Brasileirão: Fluminense

Gabriel Mota
Guia do Brasileirão: Flamengo

Guia do Brasileirão: Flamengo

Gabriel Mota
Guia do Brasileirão: Cuiabá

Guia do Brasileirão: Cuiabá

André Andrade
Guia do Brasileirão: Cruzeiro

Guia do Brasileirão: Cruzeiro

André Andrade
Guia do Brasileirão: Criciúma

Guia do Brasileirão: Criciúma

André Andrade
Guia do Brasileirão: Corinthians

Guia do Brasileirão: Corinthians

Douglas Batista