Inicialmente, importei as bibliotecas apropriadas:
- Pandas, para dataframes;
- Numpy, para operações matemáticas.
- Matplotlib, para gráficos simples;
- Statsmodels, para operações estatísticas.
Os dados estão nesse arquivo CSV: brasileiro_tab.csv.
Todo o processo está nesse notebook: brasileirão parte 1.ipynb
Abaixo, temos as primeiras estatísticas descritivas:
Posicao | Pontos | Vitorias | Empates | Derrotas | Saldo | Aproveitamento | |
---|---|---|---|---|---|---|---|
count | 218.0 | 218.0 | 218.0 | 218.0 | 218.0 | 218.0 | 218.0 |
mean | 7.8 | 57.5 | 15.8 | 10.2 | 12.1 | 7.3 | 50.4 |
std | 4.9 | 10.5 | 3.8 | 2.7 | 3.6 | 13.7 | 9.2 |
min | 1.0 | 27.0 | 5.0 | 3.0 | 3.0 | -30.0 | 23.7 |
25% | 3.2 | 50.0 | 13.0 | 8.0 | 10.0 | -1.0 | 43.9 |
50% | 7.0 | 56.0 | 15.0 | 10.0 | 12.0 | 7.0 | 49.1 |
75% | 12.0 | 65.0 | 18.0 | 12.0 | 14.0 | 17.0 | 57.0 |
max | 20.0 | 90.0 | 28.0 | 17.0 | 22.0 | 49.0 | 79.0 |
A primeira linha fala da frequência dos registros, temos a mesma para todas as colunas. Depois, temos as médias e desvios padrão. As linhas seguintes falam dos quartis: mínimos, primeiros, segundos (medianas) e terceiros quartis, além dos máximos por último. Importante dizer que os dados foram arredondados, então não são valores exatos.
Atribuí cada média a uma variável e criei dataframes contendo a média de cada time por categoria. Agora, vamos às partes dos gráficos.
Nessa seção dos histogramas, quanto mais escura a barra, maior sua frequência.
Começando com a posição, temos uma grande assimetria à direita. A média e a mediana são próximas, mas a moda, o terceiro lugar, é bem menor que ambos. Temos que a maioria das ocorrências se concentra até o sétimo lugar, entre elas, grande parte está no chamado G4. Podemos concluir que os times do G13 geralmente têm boas campanhas, no primeiro terço da tabela.
Continuando com a pontuação, temos maior simetria comparado à posição. A maioria dos dados está entre 50 e 60 pontos, o que é reforçado com moda, média e mediana pertencendo a esse intervalo. Os times têm, em média, campanhas equivalentes ao fim da primeira metade da tabela em relação à pontuação.
Em relação ao número de vitórias, temos uma simetria bem razoável. A maioria dos registros está entre 10 e 15 vitórias, inclusive temos a moda igual à mediana, de 15 triunfos. A média está bem próxima delas. Novamente, esse intervalo equivale ao fim da primeira metade da tabela levando em conta as vitórias.
Temos um resultado curioso: há uma grande frequência de cerca de 20 vitórias, um número de um candidato ao título.
Em relação ao número de empates, temos uma simetria ótima, já que moda e mediana são iguais, além da média também ser igual arredondando uma casa decimal. A maioria dos dados está entre 10 e 12 empates.
Não podemos deduzir um comportamento em relação à tabela, já que times campeões tiveram campanhas com esses números, como o Palmeiras ano passado com 10 empates, ao mesmo tempo que times de meio de tabela.
Com relação às derrotas, temos mais uma simetria ótima, esta quase perfeita já que moda e mediana são iguais, além da média estar muito próxima a elas mesmo sem arredondar a casa decimal. A maioria das ocorrências está entre 12 e 15 derrotas. No geral, esse intervalo equivale ao início da segunda metade da tabela observando as derrotas.
Essa categoria é a que mais se assemelha a uma distribuição normal (de sino), tanto numerica quanto graficamente.
Com relação ao saldo de gol, temos alguma simetria, com a média aproximadamente igual à mediana e a moda negativa. A maioria das ocorrências está entre 0 e 10 pontos de saldo de gol. Não podemos ter conclusões com relação a posições na tabela pois é um critério muito fluido, times campeões podem ter saldos de gol baixos.
Geralmente não temos saldos tão altos, como já desenvolvemos acima. Na verdade, é esperado, os times estão cada vez mais ofensivos.
Antes de continuar com os histogramas, vou esclarecer o que é o aproveitamento de um time. Basicamente é a quantidade de pontos obtidos dividida pela quantidade total de pontos, em algum momento. No fim do campeonato, temos 38 jogos com 114 pontos disputados, então á fórmula é:
Temos certa simetria avaliando os aproveitamentos dos times, mas não muita. As três medidas centrais são diferentes. Os registros se concentram entre 45 e 60%. Times campeões no geral têm aproveitamento acima de 60%, então podemos concluir que a maioria do G13 está na primeira metade da tabela nesse recorte.
Analisados os histogramas, agora vamos avaliar as médias de cada time, seguindo a mesma ordem.
O Grêmio tem a melhor média de posição, isto é, a mais baixa. A pior média é a do Vasco, a mais alta.
Poucos times estão acima da média de posição, o que é um bom sinal.
O Flamengo tem a melhor média de pontuação, bem próximo de Grêmio e São Paulo, provavelmente a diferença é por conta de casas decimais. A pior média é a do Vasco.
Vários times estão acima da média geral de pontos.
O Grêmio tem a melhor média de vitórias, bem próximo do Flamengo, diferença de casas decimais. A pior média é a do Vasco.
Vários times também estão acima da média geral de vitórias.
O Corinthians tem a melhor média de empates, bem próximo do Vasco, diferença de casas decimais. A pior média é a do Atlético Mineiro.
O São Paulo tem a melhor média de derrotas, a mais baixa. A pior média é a do Botafogo.
O Grêmio tem a melhor média de saldo de gol. A pior média é a do Vasco, muito mais baixa que as outras.
Grande parte dos times está acima da média geral de saldo de gol.
O Flamengo tem a melhor média de aproveitamento. A pior média é a do Vasco.
Com isso, podemos terminar essa primeira parte resumindo as melhores e piores médias.
Melhor média | Pior média | |
---|---|---|
Posição | Grêmio | Vasco |
Pontos | Flamengo | Vasco |
Vitórias | Grêmio | Vasco |
Empates | Atlético Mineiro | Corinthians |
Derrotas | São Paulo | Botafogo |
Saldo | Grêmio | Vasco |
Aproveitamento | Flamengo | Vasco |
O Grêmio é o time com a maior quantidade de melhores médias, três. Portanto, o Grêmio é o time mais equilibrado. Entretanto, para azar dos gremistas, o time nunca ganhou um título nos pontos corridos.
O Vasco é o que tem maior quantidade de piores médias, cinco. Portanto, o Vasco é o time menos competitivo. Isso ficou comprovado com quatro rebaixamentos no atual formato dos pontos corridos.
Muito obrigado pela leitura!