Análise de Dados em Python com a biblioteca Pandas
Pandas é uma biblioteca de código livre ou também chamado de código aberto da linguagem de programação Python. Muito utilizada para análise e manipulação de dados, principalmente em arquivos de Excel, também sendo possível trabalhar com outros tipos de arquivos.
Por que aprender a utilizar Python com arquivos Excel? Excel é um dos programas mais utilizados para análise, sendo quase impossível não encontrar empresas que não utilizam de uma forma ou outra, desde analistas a presidentes. Pandas tem métodos para ler todos os tipos de arquivos do Excel, sendo também possível exportar os resultados de volta para planilhas, sendo excelente para:
- Análise Exploratória de Dados (EDA - Exploratory Data Analysis),
- Inserir os dados em ferramentas de aprendizado de máquina (Machine Learning) utilizando ferramentas como scikit-learn,
- Processar grandes volumes de dados,
- Visualizações através de diversos tipos de gráficos utilizando ferramentas como Matplotlib.
DataFrame = na área de ciência de dados nada mais é do que uma tabela de dados, sendo que cada coluna pode ser de um tipo ou classe diferente de dados, muito se assemelha a uma planilha de Excel.
Dataset = conjunto de dados.
Importando o módulo Pandas:
import pandas as pd
Importando um arquivo CSV:
df = pd.read_csv("nome_do_arquivo.csv")
Observação 01: "pd" é apenas um "alias" (apelido), para facilitar e não precisar ficar escrevendo "pandas" sempre ao chamar alguma função, poderia ser qualquer outro nome ou até mesmo não inserir. Por exemplo: import pandas
Porém neste caso, teria que alterar o código de:
df = pd.read_csv("nome_do_arquivo.csv")
para:
df = pandas.read_csv("nome_do_arquivo.csv")
Observação 02: a variável "df" é comumente utilizada, sendo uma abreviação de "dataframe", porém também pode ser utilizado qualquer outro nome (respeitando as regras da linguagem, já que em variáveis não são aceitos nomes iniciados por número ou a utilização de palavras reservadas).
CEO ETICOM, IPGE, PriceLab *** M.Sc. in Governance, MBA Professor of Business Strategy & Execution, Budgeting, Pricing *** Founder: IPGE (1994) *** 30000 connections
5 aJander de Oliveira Fernandes Guimarães MUITO INTERESSANTE! BOA CONTRIBUIÇÃO!