Bibliotecas desconhecidas do Python
Quando começamos em Ciência de Dados com Python começamos aprendendo as 5 principais bibliotecas: NumPy, Pandas, Seaborn, Matplotlib e Scikit-learn. Depois estudamos outras como: Plotly e TensorFlow.
Depois de ter aprendido essas bibliotecas, várias pessoas acham que isso foi tudo que Python tinha para oferecer e partem para outras ferramentas como: R, MATLAB, Power BI, Tableau e etc.
Mas Python tem muito mais a oferecer para cientistas, engenheiros e analistas de dados, e isso é o que eu quero mostrar para você.
Pandas DataReader
Com essa biblioteca é possível coletar dados históricos de valores de ações e criptomoedas de bases de dados como o Yahoo Finance. Tudo isso com 1 linha de código e a manipulação dos dados pode ser feita usando Pandas, já que os dados são passados para uma tabela.
Essa biblioteca pode ser muito útil para automatizar processos para quem trabalha na área.
Pandas-Profiling
Mais uma da família Pandas. Essa gera um relatório em formato de dashboard com informações sobre a tabela passada. Muito útil para poupar tempo com um resumo dos seus dados e depois ir para análises mais avançadas.
PyMC3
Uma das técnicas estatísticas mais úteis para um cientista de dados é Inferência Bayesiana, e essa biblioteca ajuda muito nesse processo fazendo o cálculo do Teorema de Bayes por nós.
Streamlit
Um framework em Python que permite a criação de aplicações web de maneira muito fácil. Foi criado com o objetivo de ajudar cientistas sem conhecimento de desenvolvimento a fazerem aplicações mais bonitas, podendo ser usado para colocar modelos e dashboards em produção.
ImbLearn
Quando as classes dos dados de um projeto de Classificação estão desbalanceadas, é necessário fazer um balanceamento. Existem vários métodos que podem ser usados, como: Reamostragem ou geração de novas observações. Independente da escolha, essa biblioteca irá te ajudar.
PyCaret
Uma biblioteca de AutoML muito completa que trás, além de todo o pipeline, calibração de modelos, gráficos para acompanhamento do processo e deploy a partir do script para a AWS.
Já escrevi um artigo mais detalhado sobre esta biblioteca fantástica, você pode ler clicando nesse link: https://bit.ly/3pFkL41
Scikit-Optimize
Achar os melhores parâmetros para o modelo de Machine Learning deve fazer parte de qualquer projeto, mas métodos como GridSearch são muito lentos e pouco eficazes.
Esta biblioteca permite você usar outros algoritmos nesse processo, como: Bayesian Optimization e Random Search. Esses métodos são muito mais rápidos e eficazes.
Scikit-Surprise
Sistemas de Recomendação é uma das aplicações mais comuns de Ciência de Dados, mas nem sempre é fácil criar modelos bons.
O Surprise gera modelos usando o algoritmo de Filtragem Colaborativa, que faz recomendações de itens para um usuário baseado em seu comportamento e no comportamento de usuários similares.
O melhor de tudo é que você precisa apenas de dados bem simples.
Simple Transformers e Transformers
Essas bibliotecas podem ser usadas para aplicar e treinar modelos de Processamento da Linguagem Natural, como: Chatbots, Geração de Texto, Análise de Sentimento e Tradução de idiomas.
O Transformers já possui objetos pipeline prontos para uso que podem ser implementados com menos de 12 linhas de código. Ele usa os modelos BERT, modelos criados pelo Google e Facebook, sendo os melhores disponíveis.
O Simple Transformers é baseado no anterior mas tem o objetivo se ser usado para treinar modelos novos usando Aprendizado por Transferência, sendo possível alcançar excelentes resultados com poucos dados e sem processamento.
SQLAlchemy
Permite a conexão entre um banco de dados SQL e um ambiente Python. Permite que você passe dados de uma tabela para um DataFrame do Pandas e também consultas. Além de permitir a inserção de dados a partir de um script. Muito útil para a criação de pipeline de dados.
Data Engineer | Python Developer
3 aNão conhecia a scikit optimize