Análise Exploratória de Dados - Parte 2
No artigo anterior foi explicado o que é a Análise Exploratória de Dados, como faz, a sua importância. Como prometido, nessa segunda parte será dado um exemplo real da utilização da EDA.
Toda fase que envolva Data Science é importante ter uma Análise Exploratória de Dados para que se entenda o conjunto de dados. Essa etapa é a que normalmente se consegue extrair diversos insights. A análise exploratória realizada foi para justamente a geração de insights.
Os dados utilizados são provenientes do site consumidor.gov.br que é um serviço público que permite a comunicação direta entre os consumidores e as empresas para que haja solução de conflitos entre eles. Essa ferramenta é monitorada por Senacon, Procons, Defensorias, Ministérios Públicos e por toda a sociedade, atualmente 80% das reclamações que são registradas no site são solucionadas pelas empresas. Para essa análise foram utilizados os arquivos referentes a 2020, até o mês de Novembro, visto que ainda não possuia informações referentes ao mês de Dezembro.
As informações que os dados possuem são:
- Região;
- UF;
- Cidade;
- Sexo;
- Faixa Etária;
- Data Finalização;
- Tempo Resposta;
- Nome Fantasia;
- Segmento de Mercado;
- Área;
- Assunto;
- Grupo Problema;
- Problema;
- Como Comprou Contratou;
- Procurou Empresa;
- Respondida;
- Situação;
- Avaliação Reclamação;
- Nota do Consumidor;
- Total.
Visto que essa análise é focada em insights foram definidas algumas hipóteses simples para que elas possam ser validadas com dado ou não. Como foi dito na primeira parte desse artigo o interessante da Análise Exploratória de Dados é que a medida que se trabalha com os dados cada vez mais tem novas ideias. A geração de hipóteses é sempre importante porque dessa forma saberá o que se deseja obter através dos dados e se eles têm todas as informações necessárias, caso não tenha será necessário procurar outra fonte complementar ou então - se for trabalho para uma empresa - solicitar a pessoa responsável por colher os dados. Um ponto importante é que antes de testar as hipóteses é necessário ter algumas ideias dos dados que serão utilizados, para que assim seja possível gerar as hipóteses e os resultados.
Antes de traçar as hipóteses é importante lembrar que elas precisam sempre ser afirmações para assim serem validadas ou não.
Todos os resultados gerados foram através da linguagem python e o notebook com todo o código e as análises podem ser vistas no meu GitHub.
Hipótese 1: Os estados da região Sudeste (região mais populosa) são os estados que mais possuem reclamações registradas.
Essa Hipótese é feita com base de que se espera que os estados que têm mais pessoas também sejam os lugares que possuem maior número de reclamações.
A hipótese 1 é falsa, não foi validada pelo fato de que o terceiro estado que possui maior número de reclamações é o Paraná que não é um estado da região Sudeste. Mesmo que a hipótese não tenha sido validada é importante ver que 3 dos 4 estados da região Sudeste estão entre os quatro primeiros colocados com maior número de reclamações, são essas análises que fazem que conheçamos os dados pouco a pouco.
Hipótese 2: Os homens fazem mais reclamações.
A sigla "O" é referente e "outros sexos" para aquelas pessoas que não se identificam nem com o sexo feminino nem masculino.
A hipótese 2 é verdadeira, realmente os homens fazem mais reclamações do que as demais opções de sexo.
Hipótese 3: As pessoas mais consumidoras são as de até 40 anos.
A hipótese 3 é verdadeira visto que a faixa etária predominante de consumidores é realmente até os 40 anos, principalmente entre os 21 e 40 anos, onde apresenta o maior número de consumidores.
Um ponto importante em relação ao gráfico é que os consumidores que se autoclassificaram como "outros" para a opção de gênero são pouquíssimos se comparado ao gênero feminino e masculino, por isso que a sua coloração nem aparece no gráfico já que a escala atrapalha a visualização, mas mesmo assim foi colocado os valores em cada uma das faixa etárias para que mostrasse a existência desses dados.
Hipótese 4: Os consumidores 21 a os 40 anos são os que contratam mais serviços pela internet.
Percebe-se que a hipótese 4 é verdadeira. Os maiores consumidores pela internet são os da faixa de 31 a 40 anos, os consumidores de 21 a 30 anos são a segunda faixa etária que mais consome, ou seja, a faixa de 21 a 40 anos é realmente a que possui mais consumidores pela internet. Após essa faixa mais extensa percebe-se uma queda continua no número de consumidores pela internet. Era esperado que a os maiores consumidores de produtos pela internet estivessem nessa faixa de 21 a 40 anos, visto que essa faixa é a que possui o maior número de consumidores de forma geral, além disso a tendência é que as pessoas que já foram criadas utilizando a internet sejam também as pessoas que mais consumem a utilizando. Todos esses fatores fizeram supor uma hipótese verdadeira.
Um ponto importante a ser levantado sobre essa hipótese é que foi possível pensar nela por causa da hipótese anterior, isso mostra que realmente quando se começa fazer questionamentos e ir em busca das suas respostas, cada vez mais questionamentos vem de forma que, cada vez mais, afunila os dados até chegar em conclusões fundamentadas.
Hipótese 5: Pelo menos 80% dos maiores consumidores (faixa de 21 a 40 anos) procuram a empresa antes de registrar a reclamação.
Através da análise dos dados, descobre-se que:
A porcentagem de pessoas na faixa etária de 21 a 40 anos que procuram a empresa antes de registrar a reclamação é de: 82.20%.
A hipótese 5 é verdadeira 82,20% das pessoas na faixa etária de 21 a 40 anos procuram as empresas antes de registrar as reclamações.
Hipótese 6: O problema mais constante é em relação ao contrato das empresas.
O problema mais comum que é relatado é em relação a cobrança das empresas, isso faz com que a hipótese 6 seja falsa. O segundo problema mais relatado que é em relaçao ao contrato.
Através da descoberta do grupo de problema mais relatado foi possível fazer uma separação por problemas limitando apenas para esse grupo. Dessa forma se descobre que a maior parte das reclamações são referentes a cobranças indevidas e/ou abusivas, dificuldade na devolução dos valores pagos e cobranças por serviços que não foram contratados.
Hipótese 7: O segmento que mais possui reclamações é o de telefonia.
Na listagem há 50 empresas, os três maiores setores que possuem maior número de reclamações são:
- Operadoras de Telecomunicações (Telefonia, Internet, TV por assinatura);
- Bancos, Financeiras e Administradoras de Cartão;
- Comércio Eletrônico.
Apenas esses três setores totalizam 63.71% das reclamações.
Realmente o setor que possui maior número de reclamações é o telefonia (telecomunicações), seguido dos bancos (e afins) e do comércio eletrônico, portanto a hipótese 7 é verdadeira.
Outra análise que foi feita em cima da constatação de quais são os setores que possuem maior número de reclamação foi o de quantos porcento as reclamações apenas dos três primeiros setores representam. O resultado obtido foi, de certa forma, surpreendente visto que 6% dos setores (os três maiores) representam 63,71% das reclamações, é uma fração muito pequena de setores para representar uma fração muito grande de reclamações.
Hipótese 8: O setor de telecomunicações é o que possui maior número de reclamações de cobrança/contestação
Essa visualização gráfica não é muito recomendada de ser apresentada visto que ela possui muita informação e isso atrapalha a interpretação do leitor, porém está aqui com a função de mostrar a discrepância dos resultados dos primeiros resultados para os demais.
Devido ao fato do setor de telecomunicações ser o setor que possui mais reclamações era esperado que ele também fosse o que possui mais reclamações no grupo mais recorrente de reclamações (Cobrança/Contestação), porém através dos resultados ficou comprovado que essa inferência é falsa e que, na verdade, o setor que possui mais reclamações de Cobrança/Contestação é o dos bancos.
Essa análise mostra a necessidade da análise de dados, porque se fosse tirar conclusões apenas por inferências iriam ser conclusões erradas. Isso ocorre muitas vezes em empresas reais, os líderes consideram que por ter muita experiência conseguem tirar decisões precisas sobre os resultados, mas isso nem sempre é verdade e mesmo se for verdade os dados sempre trazem informações relevantes para o negócio, ainda mais quando se consegue fazer previsões através da utilização de dados.
Hipótese 9: Entre as 20 empresas com maior número de reclamações a Tim é a empresa predominante.
Tal hipótese foi levantada com relação ao ano anterior, 2019, onde, segundo o Procon, a Tim foi a empresa com mais reclamações.
Percebe-se que a Tim não é mais a empresa com maior número de reclamações, portanto a hipótese 9 é falsa. Agora a empresa predominante é o Itaucard, seguido pelo Oi Fixo, Hipercard, Banco Santander e em quinto lugar a Tim. Para afirmar se a Tim teve melhoria em número de reclamações de um ano para o outro é necessário pegar a base de dados do ano de 2019 e fazer a comparação, com a análise atual é possível apenas afirmar que em 2020 ela não foi a empresa predominante em número de reclamações.
Hipótese 10: Os mesmos segmentos que possuem mais reclamações (telecomunicações, bancos e comércio eletrônico) são aqueles que mais tem reclamações não respondidas.
Percebe-se que realmente as empresas que possuem mais reclamações são realmente as que também possuem mais reclamações não resolvidas, hipótese 10 validada. O fato das reclamações não terem sido resolvidas quer dizer que ou as empresas nem responderam as reclamações ou a resposta delas não foi satisfatória a ponto de resolver o problema, isso reforça o que foi dito na hipótese anterior, muitas vezes as empresas que possuem grande número de reclamações não estão preocupadas em resolver esses problemas e isso acaba prejudicando cada vez mais a imagem delas.
Conclusão
No artigo foram levantadas hipóteses para que pudesse conhecer mais a fundo os dados. No início eu tinha apenas uma ideia superficial dos dados, mas nada concreto e nem perto de ter respostas de fato, com a análise exploratória de dados foi possível conhecer um pouco dos dados. A EDA tem exatamente essa função, a de conhecer mais os dados, descobrir se há dados faltantes, dados nulos e por ai vai, de forma que quando for trabalhar nas demais etapas de um projeto relacionado a dados é mais fácil dar prosseguimento visto que já sabe sobre os dados e eles já estão tratados.
Engineer | BI Developer | Power BI | SQL | Python
3 aTop demais, Renata! Ótimo artigo!