Escolher bem os dados para treinar o modelo de Machine Learning faz diferença?
Um erro muito comum cometido por cientistas de dados que estão em início de carreira é sair já implementando o modelo de aprendizado de máquina sem se preocupar em entender mais sobre os dados usados para treinar o modelo.
Para mostrar de forma lúdica como os modelos podem ter comportamentos inesperados dependendo do dado usado, irei treinar 4 modelos com letras de músicas usando estilos diferentes: samba, sertanejo, infantil e funk. O que é natureza no samba? O que é amor no sertanejo? Essas são apenas algumas das perguntas que faremos para esses modelos.
Ciclo de vida de desenvolvimento de modelos de Machine Learning
Na imagem acima você pode conferir as etapas do ciclo de desenvolvimento de modelos de Machine learning. O ciclo começa a partir do entendimento do problema e termina em manutenção do modelo ou algoritmo.
O passo anterior ao planejamento de modelos é a análise exploratória. É uma das etapas mais importantes e, muitas vezes, subestimada ou até ignorada no desenvolvimento de modelos de aprendizado de máquina.
Análise exploratória de dados (EDA)
A análise exploratória é a análise inicial dos dados que pode ajudar a entender melhor o comportamento dos dados e descobrir problemas ou padrões. Através dela, conseguimos responder várias perguntas do tipo:
Passos
Bom, vamos começar então o desenvolvimento dos modelos de Machine Learning que serão treinados a partir de letras de música de samba, sertanejo, funk e infantil. Para isso, coletei dados dos 4 estilos musicais. São 17.767 letras de música do estilo sertanejo, sendo 851 artistas diferentes. Já no funk, 12.133 músicas de 619 artistas. No samba, 16.656 músicas de 466 artistas. Finalmente, no infantil são 9692 músicas de 402 artistas.
Esses dados de cada estilo musical serão usados para treinar modelos de word embedding distintos. Sendo assim, será 1 modelo de word embedding treinado com letras de funk, outro modelo treinado com letras de samba, outro com sertanejo e outro com infantil.
O word embedding é uma técnica usada em processamento de linguagem natural para representar palavras em vetores. O algoritmo de word embedding utilizado foi o Word2Vec. Ele é bem interessante por ser simples de ser treinado, mas capaz de aprender bem representações vetoriais a partir do contexto em que as palavras aparecem. Dessa forma, o modelo treinado com esse algoritmo consegue até aprender de forma não supervisionada sinônimos de palavras, pois serão palavras que aparecem em contextos parecidos.
Resultados
Após treinar os modelos, poderemos achar sinônimos de palavras. Em termos técnicos estaremos passando uma palavra, transformando a palavra em vetor usando o modelo de word embedding que treinamos e recuperando os vetores do vocabulário mais próximos da palavra passada, sendo a similaridade por cosseno a medida de distância.
Vamos então perguntar para os nossos modelos a definição de algumas palavras. As visualizações abaixo são nuvens de palavras. Quanto maior a palavra, mais similar ela é da palavra passada.
Por exemplo, natureza no sertanejo aparece no contexto de plantação, cultivo, beleza, grandeza ou dádiva. Similarmente no samba palavras como grandeza, dádiva e beleza também aparecem. Adicionalmente no samba natureza é sinônimo de sutileza, criação e riqueza. No funk natureza está relacionado a juventude, angústia, divina ou fantasia. Já no infantil, aparece no contexto de pureza, sabedoria, criador, harmonia e esperança.
Recomendados pelo LinkedIn
Curioso. A definição de palhaço no sertanejo e no infantil é bem diferente. Mas por que isso acontece? Vamos olhar de forma qualitativa as letras de música que contém a palavra palhaço no sertanejo e no infantil.
Palhaço no sertanejo aparece no contexto de alguém que foi enganado ou traído. Já no infantil, é mais literal, está relacionado ao circo, gargalhada ou brincalhão. O modelo do infantil até aprendeu alguns nomes de palhaços como Bozo, Espirro e Gravata. Percebeu como os dados usados afetam diretamente o que o modelo aprende?
Conclusão
Os modelos de aprendizado de máquina aprendem a partir dos dados usados no treino. Então se forem alimentados com dados enviesados ou ruidosos, eles também apresentarão esses comportamentos.
Cada estilo musical tem suas peculiaridades. Não é simplesmente acreditar que por serem textos de letras de música que serão dados iguais. A análise exploratória é uma parte fundamental das etapas de treinar um modelo de aprendizado de máquina e pode evitar comportamentos inesperados aprendidos pelo modelo.
Espero que você tenha gostado, tentei trazer esse tópico técnico de forma mais leve e divertida! Fique à vontade para compartilhar e marcar pessoas que gostariam de acompanhar esse conteúdo.
Desenvolvedor de Software
2 aParabéns , ficou muito bom.
Medica pediatra e hematologista pediátrica com pós em Medicina do Esporte| Consultoria My Best| Fellow ID_BR |Programa Ubuntu Vetor Brasil| Columbia women's leadership network | ASICS Frontrunner Brasil| LinkedIn Creator
2 aMuito bom o artigo. Este assunto é muito instigante e a maioria sabe pouco sobre ele.
Machine Learning aplicado à Saúde | MBA em Ciência de Dados e Inteligência Artificial | Estudante de Estatística |
2 aAdorei o artigo! Muito Obrigado
Product Manager @ Totalpass | Gerente de Produtos | Produtos Digitais
2 aGabriel Anelli Olha que legal esse artigo!
Psicólogo | Escuta Especializada de Crianças e Adolescentes Vítimas de Crimes | Terapia Cognitivo-Comportamental (TCC) | Terapia Comportamental Dialética (DBT)
2 aBasicamente o seu artigo Karina Kato descreve os mesmos problemas que um Terapeuta Cognitivo-Comportamental tem nas sessões clínicas. Quando alguém descreve: "não espero que os relacionamentos importantes durem" ou "no final acabarei só", os terapeutas buscam palavras e expressões (sinônimos e analógicas) para identificar às crenças ou esquemas cognitivos por trás dessa afirmação. No caso exemplificado, teria relação com ideias ou pensamentos de abandono, rejeição, desamparo, negligência, indiferença. Ao tentar interagir com o paciente, tentando traduzir o que ele diz, isso poderia despertar emoções neles. Nesse sentido, o ideal seria que tivéssemos um software de recomendação audiovisual (filmes, músicas, imagens) exemplificando ideias de abandono e rejeição. Os preconceitos e a falta de experiência clínica vão interferir diretamente na escolha dos dados ou informações usadas como exemplo. Agora, pensa em uma empresa usando determinada música ou imagem para influenciar na compra de determinado produto. Sem saber, pode despertar emoções desagradáveis (raiva ou tristeza) no cliente que estava propenso a compra.