Análise Estatística e Visualização de Dados com Python
Neste artigo, vou mostrar uma abordagem prática para análise estatística e visualização de dados utilizando a linguagem de programação Python. Com a ajuda das bibliotecas Pandas, Matplotlib e Scipy, iremos explorar um conjunto de dados e realizar uma análise estatística, além de visualizar os resultados por meio de gráficos.
Passo 1: Importação das bibliotecas
Primeiramente, importamos as bibliotecas necessárias para a análise de dados: Pandas, Matplotlib, numpy e Scipy. Essas bibliotecas fornecem funcionalidades para leitura de arquivos, manipulação de dados e plotagem de gráficos.
import pandas as p
import matplotlib.pyplot as plt
import scipy.stats as stats
import numpy as npd
Passo 2: Leitura e filtragem dos dados
Utilizando a biblioteca Pandas, lemos um arquivo Excel contendo os dados a serem analisados. Em seguida, filtramos os dados com base em um critério específico, selecionando apenas as linhas que possuem um determinado valor em uma coluna.
A fonte de dados é uma planilha em Excel como essa a baixo.
Basicamente é uma planilha alimentada por uma Maquina de Medição por Coordenadas (CMM), onde cada coluna representa uma medição de uma caracteristica após a fabricação de uma peça.
Passo 3: Preparação dos dados
Selecionamos a coluna desejada para análise e realizamos algumas transformações nos dados, como a conversão de vírgulas para pontos, a fim de garantir que os valores sejam tratados corretamente.
Passo 4: Plotagem do histograma e distribuição normal
Utilizando a biblioteca Matplotlib e Scipy, plotamos um histograma dos dados selecionados e a linha de distribuição normal correspondente à média e ao desvio padrão dos dados. Isso nos permite visualizar a distribuição dos valores e comparar com uma distribuição teórica.
Recomendados pelo LinkedIn
Passo 5: Definição de limites e cálculo de probabilidades
Adicionamos limites superior e inferior ao gráfico e calculamos a probabilidade dos valores acima do limite superior e abaixo do limite inferior, utilizando a função de distribuição normal da biblioteca Scipy.
Acrescentei um calculo de probabilidade para melhorar na interpretação dos Histograma, onde mostra em porcentagem do numeros de peças fora de dimensional.
Passo 6: Plotagem do gráfico de dispersão e linha de regressão
Plotamos um gráfico de dispersão dos dados selecionados, relacionando o índice das amostras com os valores da coluna. Em seguida, ajustamos uma linha de regressão aos dados utilizando a biblioteca NumPy e adicionamos a linha ao gráfico.
Passo 7: Configuração e exibição dos gráficos
Configuramos os rótulos dos eixos, títulos e legendas dos gráficos para tornar a visualização mais clara e informativa. Por fim, exibimos os gráficos na tela.
Conclusão:
Neste artigo, procurei abordar na prática uma análise estatística e visualização de dados utilizando Python. Através da utilização das bibliotecas Pandas, Matplotlib, Scipy e NumPy, podemos realizar a leitura e filtragem de dados, plotar histogramas, distribuições normais, gráficos de dispersão e linhas de regressão. Essas ferramentas fornecem uma maneira eficiente e flexível de analisar e visualizar dados, possibilitando a obtenção de insights valiosos a partir dos mesmos.
Metrologia Aplicada na Computação - Sistemas Inteligentes
1 aOla. Obrigado pelo vídeo. Uma pergunta: seu eixo y que é o da probabilidade não poderia ultrapassar o valor 1 correto? Creio que há um erro de legenda no eixo y. Abraço!