Baseline: Você sabe o que é e utiliza em seus projetos?
Na sequência dessa jornada rumo a me tornar um cientista de dados quero compartilhar, principalmente com as pessoas que estão iniciando na área, um tema de extrema importância e que muitas vezes não é tratado nos cursos de data science (DS) e machine learning (ML): a importância de ter uma baseline no início do projeto.
De acordo com o google tradutor baseline é um valor mínimo ou um ponto de partida usado para realizar comparações. Trazendo esta definição para o data science podemos entender por baseline um valor de predição que pode ser facilmente estimado ou calculado, e que o algorítimo ou solução de data science proposto deve superar.
Vamos contextualizar da seguinte forma: imagine que uma empresa precisa estimar as vendas do próximo mês para definir toda a estratégia de marketing e a alocação de recursos estratégicos. Antes de qualquer solução de ML este problema já estava sendo resolvido, seja com algum cálculo simples ou com a experiência dos profissionais da área. Em uma live do Mário Filho (não me lembro o número agora) ele utilizou a média dos últimos 3 meses como baseline para estimativa de vendas do mês seguinte, simples e oferece uma estimativa boa. Profissionais experientes também têm bons valores para estimativas, sem fazer muito esforço. Pronto, agora você tem um pano de fundo, uma visão básica (assim como na foto do início) e seu modelo ou sua solução precisa ser pelo menos melhor que isso.
Esta definição é o ponto de partida e será utilizado para medir a melhoria da solução e também justificar o esforço despendido para este fim. Em um episódio do Data Hackers (desculpa pessoal, não lembro em qual episódio foi) uma cientista de dados disse que implementou uma solução de data science e estava conseguindo 70% de acerto e, pensando que fosse um resultado ruim, estava avaliando formas de melhorar aquilo. Mas a gerente da área já estava muito feliz e utilizando o valor, isto porque as soluções anteriores deveriam ser muito piores. Nesse caso conhecer o baseline fez toda a diferença para o que seria uma boa solução e um bom modelo. Nesse artigo o Rama Ramakrishnan trata da importância e de como criar uma baseline que faça sentido para todos que estão envolvidos no projeto: Create a Common-Sense Baseline First.
Bom, então quando estiver desenvolvendo uma solução de DS ou ML para um problema de negócio converse com os profissionais da área para ter estimativas ou pense em formas simples de resolver o problema. Pronto, agora você uma baseline bem definida e pode avaliar se seu algorítimo fornece uma visão melhor que a atual e se o esforço necessário vale a pena. Isso faz toda a diferença.
E você, como constrói baseline para seus projetos?
Sucesso e forte abraço.