12 dicas práticas para aprender Data Science em 2020
Neste ano você prometeu se tornar cientista de dados e eu escrevi algumas dicas práticas para ajudar você nessa missão.
Leia atentamente cada dica e anote em um post-it aquela que você mais precisa cumprir.
Dica #1 Estude o KDD
O propósito do cientista de dados é descobrir conhecimento em bases de dados. O KDD é um processo que nos guia nesse propósito. Conhece-lo é o primeiro passo para fazer ciência de dados. Gaste 5min do seu tempo para ler este artigo (em inglês) e entender suas etapas.
Dica #2 Programe!
R ou Python. Não importa a linguagem no momento. Você precisa escolher uma delas. Mas não tome muito tempo decidindo, porque o mais importe é praticar, praticar e praticar! Teremos vários cursos na Mineradores (agenda em breve) este ano nas duas linguagens. Junte-se a nós e conheça as duas.
Dica #3 Compre um destes livros
Você precisa estudar. E um livro é sempre a melhor opção. Se você quer conhecer independentemente de código, compre o Introdução à Mineração de Dados. Se prefere ver aplicações em R, compre o Introdução à Mineração de Dados com Aplicações em R. Mas se tem preferência por Python, compre o Data Science do Zero.
Atualizado: lista completa
Dica #4 YouTube também ajuda!
Atualmente já existem, em língua portuguesa, vários vídeos e cursos completos de Estatística e Big Data Analytics. Eu gosto muito dos vídeos da UNIVESP, como este aqui. Vale a pena conferir o que já tem publicado.
Dica #5 Conheça profundamente uma base de dados
É simples. Escolha um tema do seu interesse e vai lá no Kaggle. Procura, baixa a base de dados no seu computador, abre no Excel e observa todas as colunas. Lê a documentação, faz anotações e repete tudo até saber explicar pra alguém o que tem nessa base de dados.
Dica #6 Explore com SQL
Você também pode manipular a base de dados em um SGDB. Se você não sabe SQL, é uma ótima forma de aprender e praticar. Lembre-se que SQL é uma das principais linguagens para o cientista de dados.
Dica #7 Estude muito bem um (e somente um) algoritmo de Machine Learning
Existem vários algoritmos de Machine Learning. Têm os mais populares e têm os menos populares. Entre os mais usados, recomendo estudar Árvores de Decisão. Por quê? É fácil de entender e a gente usa em 80% dos problemas analíticos. Quer motivo melhor?
Dica #8 Construa seu Github
A ideia aqui é permitir que outras pessoas mais experientes possam te ajudar. Você, ainda, pode armazenar o conhecimento que está adquirindo e, claro, utilizá-lo como um portfólio para ser incluído no seu currículo.
Dica #9 Vá a um meetup
Já existem vários encontros acontecendo gratuitamente no país. Embora a maior parte deles não seja para iniciantes, você pode visitar alguns para entender como cientistas de dados mais experientes têm trabalhado. Visite o meetup.com e inscreva-se no mais perto de você.
Dica #10 Apresente em um meetup
Sabe aquele meetup que você participou o ano todo? Pois chegou a hora de você apresentar nele. Por que não? Conte um pouco do que você aprendeu ou vem apreendendo ao longo do ano. Tenho certeza de que você tem muito a contribuir. E aproveite pra me convidar!
Dica #11 Participe deste grupo no WhatsApp
Em dezembro de 2018 eu ajudei a criar a maior comunidade de dados do WhatsApp. São mais de 1200 profissionais. Escolha um dos grupos do Data Lovers e faça parte.
Dica #12 Pergunte!
Se você tem uma dúvida, deixa ela nos comentários e eu prometo te responder. Não deixe seu conhecimento ficar vago. Fazer perguntas também é tarefa do cientista de dados.
Não tem dúvidas? Deixe o seu comentário de agradecimento e compartilha este artigo com os amigos.
Publicado originalmente em orlandojunior.dev.
***
Leia também
- O que é Inteligência Artificial (e o que não é!)
- A melhor definição de Machine Learning ainda é esta
- 3 livros sobre Machine Learning (em português!) para você se tornar um cientista de dados
***
Orlando Junior é CEO e Data Scientist na Mineradores. Também é professor de Ciência da Computação e Inteligência Artificial.
Microbiologista agrícola, Pesquisa e Desenvolvimento, Analista de laboratório, Bióloga.
4 aExcelentes dicas, Orlando! Obrigada por compartilhá-las!
S&OP | S&OE | Supply Chain | Logistics | Demand Planning | Transformation
4 aMuito obrigado Orlando, ótimas dicas para quem quer começar a se aventurar na data science!
Technical Support OPS III at Clarios | Process Improvement Analyst | Lean Six Sigma Black Belt | Engenheiro de Processos | Engenheiro de Melhoria Contínua | Manufacturing Team Lead | Project Lead | Operational Excellence
4 aÓtimas dicas Orlando, obrigado por compartilhar!
Fraud Prevention at Livelo | Fraud Strategy | Risk Assessment | SME | SQL | Projects | Lean Six Sigma | SFPC™
4 aRafael Almeida