Simplificando a Análise de Dados Textuais com Manipulação de Strings no Pandas
Na análise de dados, é comum lidar com informações em formato de texto ou strings. A capacidade de manipular eficientemente strings é fundamental para extrair insights valiosos desses dados textuais. Felizmente, o Pandas, uma biblioteca popular de análise de dados em Python, oferece recursos poderosos para a manipulação de strings, facilitando o processo de análise. Neste artigo, exploraremos alguns exemplos completos de manipulação de strings usando o Pandas, mostrando como suas funcionalidades podem simplificar e agilizar a análise de dados textuais.
1 - Divisão e Extração de Strings:
Um cenário comum é quando temos uma coluna de um DataFrame contendo nomes completos e desejamos separar esses nomes em colunas distintas, como primeiro nome e sobrenome. Podemos fazer isso facilmente usando o método str.split() do Pandas. Veja o exemplo abaixo:
import pandas as pd
# Criar um DataFrame de exemplo
data = {'Nome': ['João Silva', 'Maria Souza', 'Pedro Santos']}
df = pd.DataFrame(data)
# Dividir o nome em primeira e última coluna
df[['Primeiro Nome', 'Sobrenome']] = df['Nome'].str.split(' ', 1, expand=True)
# Exibir o DataFrame resultante
print(df)
A saída será:
Nome Primeiro Nome Sobrenome
0 João Silva João Silva
1 Maria Souza Maria Souza
2 Pedro Santos Pedro Santos
2 - Substituição de Strings:
Em algumas situações, precisamos substituir partes específicas de strings por outras. O Pandas nos fornece o método str.replace() para realizar essa substituição. Considere o exemplo em que queremos substituir os caracteres "a" por "e" em uma coluna chamada "Texto":
Recomendados pelo LinkedIn
import pandas as pd
# Criar um DataFrame de exemplo
data = {'Texto': ['banana', 'maçã', 'laranja']}
df = pd.DataFrame(data)
# Substituir "a" por "e" no texto
df['Texto'] = df['Texto'].str.replace('a', 'e')
# Exibir o DataFrame resultante
print(df)
A saída será:
Texto
0 benene
1 meçã
2 lerenje
3 - Extração de Informações:
Muitas vezes, precisamos extrair informações específicas de strings. O Pandas oferece o método str.extract() para essa finalidade. Vamos supor que temos uma coluna de um DataFrame que contém números de telefone e desejamos extrair o código de área desses números:
import pandas as pd
# Criar um DataFrame de exemplo
data = {'Telefone': ['(11) 98765-4321', '(22) 12345-6789', '(33) 55555-9999']}
df = pd.DataFrame(data)
# Extrair o código de área dos números de telefone
df['Código de Área'] = df['Telefone'].str.extract(r'\((\d+)\)')
# Exibir o DataFrame resultante
print(df)
A saída será:
Telefone Código de Área
0 (11) 98765-4321 11
1 (22) 12345-6789 22
2 (33) 55555-9999 33
A manipulação de strings é uma habilidade essencial na análise de dados textuais. O Pandas simplifica esse processo, fornecendo métodos e funções poderosos para dividir, substituir e extrair informações de strings em conjuntos de dados. Neste artigo, exploramos alguns exemplos completos de manipulação de strings usando o Pandas, demonstrando como essas funcionalidades podem ser aplicadas de forma eficiente e eficaz. Ao dominar essas técnicas, você estará preparado para lidar com dados textuais e obter insights valiosos em suas análises.