Um roteiro para Machine Learning
Quando fazemos uma viagem a turismo podemos agir de várias formas, uma delas é perambular, sair andando, absorver o máximo de informações à medida que caminhamos. Outra abordagem é usar um mapa, marcar todos os pontos que interessam e sair percorrendo estes pontos com foco nos resultados.
Eu, particularmente, já experimentei as duas abordagens e posso garantir, a segunda é mais produtiva e consegue extrair mais de menos.
Com Machine Learning eu também tenho experimentado as duas abordagens e notei que, para aproveitar os recursos disponíveis, nada melhor do que seguir um roteiro. Por isto escrevi este guia, que é a forma que tenho feito.
Sete passos para Machine Learning
1-Entender o problema: O primeiro passo é conversar com alguém da área de negócios e descobrir como esta pessoa resolve o problema no seu dia a dia. Nesta fase é importante descobrir o significado dos dados para o negócio. Documentos e material técnico também podem ser muito úteis nesta primeira etapa.
2-Aumentar a complexidade: Elencar quais dados ainda não são levados em conta mas que podem ser relevantes para a tomada de decisão.
3-Escolher qual o algoritmo parece mais adequado: Nesta escolha é importante usar as regras de negócios levantadas anteriormente, junto com a prática e a análise de gráficos. É interessante plotar gráficos com os dados disponíveis para analisar o formato da sua distribuição. Outra “ferramenta” importante é o conhecimento de vários algoritmos, isto ajuda a reconhecer quais algoritmos são bons para resolver quais tipos de problemas. Para que a escolha seja boa, é muito interessante que o profissional tenha praticado bastante com diversos algoritmos.
4-Começar a codificar: Rodar um algoritmo de pré-processamento para deixar os dados prontos para o algoritmo de Machine Learning. Em seguida rodar o código de Machine Learning escolhido no item 3.
5-Avaliar a qualidade das previsões: Utilizar algoritmos que comparam a base de treino com a de teste, comparar as duas usando um algoritmo como o do erro médio absoluto, MAE, definindo se o resultado foi satisfatório.
6-Refinar o algoritmo e experimentar mais algoritmos: Refinar o algoritmo já executado e experimentar outros algoritmos nos mesmos dados. Repetir a etapa 5 para descobrir quais são os algoritmos que melhor se adaptam ao problema.
7-Criar gráficos e pareceres para interpretar o resultado: Nesta etapa é importante ser bem didático e escolher cores significativas, assim como gráficos fáceis de visualizar. No parecer é muito importante priorizar os dados mais significativos e explicar os cenários avaliados.
E você... Segue algum roteiro para fazer Machine Learning? Compartilhe também suas técnicas para que eu possa melhorar o meu processo.