Estatísticas da F1: Uma análise na mudança da competitividade entre 1950 e 2017

Estatísticas da F1: Uma análise na mudança da competitividade entre 1950 e 2017

A fórmula 1

Um dos esportes de alto desempenho mais apreciados pelo mundo é a fórmula 1, só na temporada de 2017 essa categoria teve audiência televisiva de 1.4 bilhão de pessoas isso só nos 20 mercados principais. Conforme informações do site grandepremio.com.br só em 2018 a Ferrari fechou com um orçamento de 1,6 bilhões, só para efeito de comparação, empresas como a Totvs (Mercado de sistemas corporativos: ERP’s, CRM’s), alguns bancos como Inter, Indusval, Alfa e empresa como a Natura (Cosméticos) e muitas outras, tem capital social no patamar de 1 bilhão, conforme dados da B3.

Esse esporte que é um misto de adrenalina e tecnologia de ponta proporciona grandes espetáculos ao público em geral e um grande retorno aos stakholders, só no município de São Paulo o grande prêmio de Interlagos movimentou R$ 334 milhões em turismo no ano de 2018, o Brasil é o maior Mercado da categoria com 76 milhões de expectadores em audiência televisiva. 

O objetivo desse paper foi analisar dados da fórmula 1 desde 1950 até 2017, para avaliar o comportamento do intervalo de tempo para pontuação em 4 períodos distintos. Os resultados da análise estão detalhados abaixo, as ferramentas utilizadas foram: Rmarkdown, Rscript, Excel e Power Bi os dados para análise foram extraídos da página statf1.com, fórmula1.com e grandepremio.com.br.

Análise descritiva dos dados

Conforme o estatístico Thiago Marques [1]: Se eu tenho um “problema” muito grande eu posso tentar dividir em “micro problemas” e entender cada parte desse pequeno problema, analogicamente as medidas separatrizes nos permite fracionar um grande conjunto de dados em pequenos grupos (quartis e percentis). No conjunto de dados analisado temos um intervalo de 99 Grand Prix realizados entre 1950 e 2017, apesar de não ser tão grande, foi necessário separar para uma análise mais apurada. O objetivo principal da análise foi avaliar a mudança na competitividade da fórmula 1 nesse período, para isso foi feito os seguintes procedimentos de análise:

[a] Separação do conjunto em quartis;

[b] Cálculo do intervalo de tempo médio entre vitórias em 4 períodos distintos: 1950 a 1969, 1970 a 1982, 1983 a 1998 e 1999 a 2017;

[c] Avaliação a heterogeneidade dos dados com o coeficiente de variação;

[d] Avaliação da simetria com base no coeficiente de Pearson;

[e] Análise dos resultados para avaliar se a competitividade foi maior, menor, igual ou indiferente nos períodos analisados (entende-se que o intervalo de tempo entre um podium e outro

As etapas e os resultados serão desdobrados abaixo

[1] Thiago Marques é professor de Estatística do canal EstaTiDados, professor, palestrante e estatístico por formação e vocação.

Separação em quartis 

O dataset tem o nome do piloto número do Grand Prix e as datas entre a primeira e segunda pontuação, para análise o dataset foi classificado em ordem crescente de data da primeira pontuação, a partir disso foi separado em 4 grupos conforme diagrama abaixo:

Não foi fornecido texto alternativo para esta imagem

Tratamento dos dados

Foi necessário fazer alguns ajustes no dataframe, os dados com os intervalos de data estavam no formato yyyymmdd com a variável após cada número, ex: 1 y 10 m 5 d, para isso foi necessário tratar os retirando as letras dos números, fiz isso no power query com a função separar colunas por delimitador, a principio a análise ia contemplar só a informação de ano desconsiderando os demais períodos de meses e dias, analisando as medidas de tendência central e separatrizes foi observado que a amostra tinha uma distribuição assimétrica e que a dada a alta dispersão a média não representava bem o conjunto de dados, na comunidade Estatdados levantamos a questão e uma das opiniões de um dos membros (Eduardo Rabello), foi usar a mediana como medida de tendência central, realmente ela representava bem mais a “centralidade” dos dados do que a média que era muito influenciada por valores extremos.

Para entender melhor meu objeto de análise (intervalo de tempo que os pilotos levaram entre um podium e outro no intervalo de 1950 a 2017) resolvi incluir anos e dias tudo na unidade temporal mês, para isso usei o Excel (quem nunca ? 😊) , com as funções:

Não foi fornecido texto alternativo para esta imagem

Sendo: QX os quartis que foi o objeto da análise, Q1, Q2, Q3 e Q4 o que vem depois são as posições dos caracteres, exemplo: 20116 dá um valor de 25,53, 11016 um valor de 22,53 e assim sucessivamente.

Etapas no R Studio

Abaixo as etapas desenvolvidas no R Studio

Não foi fornecido texto alternativo para esta imagem

Análise dos resultados

Para uma compreensão geral dos quartis foram utilizados as medidas de tendência central: Média, Mediana e Moda, foi observado que o no primeiro quartil que vai de 1951 até 1969 a média entre a pontuação de um Grand Prix e outro era de ~ 29 meses (Q1), entre 1970 e 1982 ~ 25 (Q2), uma parte da temporada de 1982 chegando até 1998 a média foi ~ 22 (Q3 e Q4) aproximadamente igual a do período compreendido 

Não foi fornecido texto alternativo para esta imagem

entre 2000 e 2017, ou seja, indicando um intervalo maior nos 2 primeiros quartis, essa tendência foi confirmada pela mediana. O histograma acima nos dá a uma ideia da distribuição dos dados, com a frequência simples.

Analisando o histograma dos intervalos com as frequências relativas, percebemos que a distribuição é assimétrica á direita e dessa forma possui mais valores concentrados nos menores intervalos do que nos maiores.

Não foi fornecido texto alternativo para esta imagem
Não foi fornecido texto alternativo para esta imagem

Conclusões:

  • Entre os anos de 1951 a 1969 foi observado que um piloto demorava mais tempo para pontuar entre os 3 primeiros em comparação com os demais quartis.
  • Em um período de 16 anos compreendidos entre 1982 a 1999 sinalizou maior competitividade com uma mediana maior que o quartil 2 e 4.
  • Os quartis 1 (1951 a 1969) e 3 (1982 a 1998) foram considerados os mais competitivos pela amostra analisada.
  • Assumindo que a variação maior entre os tempos sinaliza maior competitividade, os quartis 1 e 3 apresentam também as maiores dispersões, confirmando a mesma conclusão feita com base nas medidas de tendência central.


JOSÉ LUCAS

Engenheiro Mecânico na AETHRA - Automotive Systems | Design Eletromecânico e Engenharia Mecânica

5 a

Atualmente trabalho com isso é sei bem o quanto é importante saber analisar e comparar bem os dados ótimo artigo Lincoln.

Ramon Lisboa

Aftermarketing / Vendas B2B / Vendas técnicas

5 a

Muito bom artigo! Estamos vivendo uma época em que há abundância de dados. E há também várias ferramentas para analisar estes dados e extrair informações. Sua publicação é uma demonstração do quão valioso pode ser uma analise de dados bem feita. Penso que temos um oceano a ser explorado!

Lincoln Lisboa

Finanças Corporativas | Vendas | Analytics | Estatística | BI

5 a

Obrigado Felipe!

Felipe Santana

Fundador e CEO @ Stack | Dados, IA & Tecnologia

5 a

Muito bom, parabéns Lincoln!

Lincoln Lisboa

Finanças Corporativas | Vendas | Analytics | Estatística | BI

5 a

Obrigado Thiago. A comunidade Estatidados vai crescer cada vez mais, seu empenho e qualificação contribui diretamente para isso!

Entre para ver ou adicionar um comentário

Outras pessoas também visualizaram

Conferir tópicos