O que é Data Science (e o que não é)?
Há muito tempo o cientista de dados é considerado o hot job do século 21. Esse hype tem sua parcela de verdade. De fato, à medida que as corporações avançam na habilidade de coletar e armazenar dados fica evidente que é necessário gerar valor desse ativo, criando novos postos de trabalho com esse perfil.
O problema, na minha opinião, é que o cientista de dados virou a bala de prata da indústria. Ele é procurado por pequenas, médias e grandes organizações, normalmente com gordos salários, para fazer o que ninguém nem ousa sonhar: algo.
Pela minha experiência, existe um misticismo sobre as capacidades da ciência de dados que vai muito além do que ela oferece de fato. Normalmente, quando as pessoas falam sobre esse assunto eu tenho a forte impressão que estão se referindo a alguma magia antiga, alguma forma de feitiçaria ou alquimia. Tudo, absolutamente tudo é possível para a ciência de dados. Não existem limites para as façanhas dos cientistas.
Bom, sendo assim, vamos começar a desmistificar esse assunto pelo começo: Ciência de dados não é magia. Normalmente, ciência de dados é a aplicação da prima feia da matemática, a estatística. Prima feia pois a estatística é a ciência da incerteza, é a arte de dizer "É provável que sim" e quase nunca "Sim", enquanto que a matemática é a mãe da certeza, do 2+2, do "como queríamos demonstrar", ou, pelo menos, é assim que boa parte de nós escolhe a encarar.
Por se basear muito na estatística, a ciência de dados é a união da incerteza com a tortura dos dados. O cientista de dados é um profissional multidisciplinar, que tem conhecimentos de desenvolvimento de software e tecnologia, estatística e do contexto onde trabalha. De posse desses conhecimentos, é possível limpar, mudar, organizar os dados para que padrões sejam encontrados e utilizados no mundo material.
A ciência de dados, antes de qualquer coisa, é uma ciência. Portanto tem métodos, deve se basear em eventos e condições observáveis e, como toda ciência, deve ser cética de si mesma, se colocando em dúvida à medida que as evidências evoluem.
Outra coisa que a ciência de dados é: cara. Muito cara. Custa dinheiro manter um time de cientistas de dados, modelos de ciências de dados. Aliás, custa muito dinheiro mesmo. Quando ela funciona custa caro, quando ela não funciona, custa ainda mais. É por isso que é necessário tomar muito cuidado com o formato e objetivo da sua utilização.
Em diferentes situações, percebo as pessoas desejando aplicar (às vezes até aplicando) ciência de dados em projetos que precisam, no máximo, de um direcionamento de dados, por exemplo por meio de um gráfico ou dashboard. Já vi pessoas de negócio aplicando técnicas de agrupamento de dados em uma planilha do excel sem os processos de limpeza e organização dos dados. É um absurdo desperdiçar recursos e abalar a fé do negócio nos dados pelo prazer de incluir no LinkedIn "experiência com machine learning".
Não faz sentido que pessoas de negócio, sem conhecimento do que é ou como se faz ciência de dados decidam, sozinhas, o que deve ser feito e quando. Software, de um modo geral, deve ser construído com um grau mínimo de certeza de que ele de fato resolve um problema. As soluções de ciência de dados precisam dessa atenção de forma ainda mais cuidadosa, uma vez que costumam estar relacionadas com taxas de acerto e é mais complexo entender a motivação por trás da resposta de um algoritmo, por exemplo. É muito fácil achar que está acertando, com base no algoritmo, e na realidade está errando espetacularmente.
É importante, ainda, esclarecer que ciência de dados não é, sob nenhuma perspectiva, resumida à criação de algoritmos de aprendizado de máquina. Os algoritmos são ferramentas para que seja possível entregar soluções escaláveis para problemas reais. Dessa forma, um time de cientistas de dados pode, e possivelmente deve, ter especialistas em machine learning, mas também deve contar com pessoas com alta habilidade de storytelling, estatísticos focados nos métodos muito mais do que nos resultados, pessoas com capacidade de exploração de dados e conhecimento de negócio para auxiliar na formação e validação de hipóteses, além de contar com um negócio comprometido com a realidade da ciência de dados, e não com a magia que a tudo resolve.
Um formato relativamente novo no mercado é a aplicação de ciência de dados sem o compromisso ou a conotação da criação de modelos é o chamado de Advanced Analytics, ou Análise Avançada. Esses profissionais são cientistas de dados com foco nas descobertas de conhecimentos mais profundos do que a exploração de negócio, mas menos demoradas do que a automatização via machine learning. Nesse cenário, é possível descobrir conhecimentos novos que o negócio sequer sonhava que existiam, desenvolver hipóteses e validações que podem auxiliar no aumento da certeza sobre o valor de negócio de um projeto de machine learning, e, ainda, desafiar o conhecimento já estabelecido, criando novas avenidas de oportunidades.
A ciência de dados é a aplicação estruturada de técnicas de estatística e do método científico para a descoberta de conhecimento em dados. Para que seu uso seja eficiente é necessário que as organizações entendam as limitações intrínsecas a esse processo e que exista uma estratégia real com foco na aplicação, manutenção e escalabilidade das técnicas e seus ganhos materiais.
Coordenadora Tech | Produtos Digitais | Dados | Grupo Boticário
3 aExistem situações em que análises exploratórias mais apuradas somada a um storytelling bem direcionado, é mais rápido, mais eficiente do que complexos modelos de M.L. Temos que avaliar bem, para não querer matar uma formiga com um super canhão. Adorei o texto Van!
Head of Data
3 aEntender como cada profissional de Dados pode auxiliar a resolver cada tipo de problema é um conhecimento essencial. Ótimo texto Vanessa!