A ciência e a arte de se construir modelos de dados
Por Jhean Camargo – Tech Leader Dados
Há muitos que se gabam da posição de ser um cientista de dados, profissão da moda, ou de ser um humilde estatístico, daqueles raízes que estimam as coisas praticamente no braço, com todo procedural de boas práticas e garantia do desempenho do poder de teste ou um ser economista teórico que tem nas costas bastante bagagem de modelos. As profissões citadas aqui têm o poder divino de poder construir modelos matemáticos que busquem resolver o problema de negócio de alguma empresa.
Aos neófitos que estão entrando na parte de modelagem de dados, o conselho maior daqueles que trilharam esse caminho por outras sendas, em tempos em que ser um modelador era função dos ratos da academia ou de profissionais de laboratórios de empresas, cuja função é construir algoritmos ou equações que tenham somente um único fim: trazer alegrias e soluções aos stakeholders seja sob a forma de um projeto bem sucedido, dinheiro no caixa da empresa ou indicações do que se fazer (informação + insight).
Via de regra modelos matemáticos possuem duas naturezas per se, ou eles são descritivos, ou seja, o modelo ou a técnica tem como objetivo descrever o comportamento da base de dados (como um EDA por exemplo), descrever o comportamento de um subconjunto da base de dados (conhecer o comportamento dos clientes de determinada empresa por meio de técnicas de Clusterização, ou, modelos de natureza prescritiva, como um modelo preditivo que diz que na semana que vem haverá com 95% de certeza que a demanda aumentará 20% e que é recomendado (prestar atenção nessa palavra, modelos não tomam decisão, quem deve tomar a decisão final de negócios é o operador humano!) aumentar a produção para a empresa aumentar seus lucros, mantendo a margem constante.
Veja aqui então que o operador já pode fazer algumas opções, logo, pode-se buscar conhecer o seu mundo de dados e dele realizar investigações (o que é a base de tudo) e depois construir modelos que ajudem a tomar determinada decisão porque os parâmetros estimados convergem ao dizer que com determinado nível de certeza alguma coisa deve acontecer.
Conceituado isso, com a base de dados pronta e toda a parte de tratamento de dados, lindo, perfeito e maravilhoso (a se considerar que o tratamento de dados consome 95% do tempo útil da equipe preparando e escovando bits), chega o maravilhoso momento de se conceber um modelo teórico dos dados. Modelos matemáticos não são o oráculo da resposta perfeita para todo tipo de pergunta. Não existe um modelo matemático como a teoria da psicohistoria como imaginado por Isaac Asimov que prevê o comportamento do universo (e tudo que se move dentro dele) com milhares de anos de precisão. Modelos precisam ser construídos alicerçados em um fenômeno observado no mundo real, e depois simplificado em termos de parâmetros e de equações comportamentais.
Isso quer dizer que construir modelos é muito mais que engenharia de machine learning, com as features prontas, basta colocar dentro de uma máquina que faz modelos, os mais candidatos a dar ganho de informação são estrelados, conquanto os menos favorecidos são descartados e acabam na lixeira do seu software estatístico. A arte de se construir modelos vai muito além disso e vamos explicar o porquê:
A primeira coisa que se deve perguntar a um modelo é “por que determinada coisa funciona assim?”, ou, “dados esses produtos que eu tenho para vender, por que uns sobem mais que outros quando um deles vende mais ou vende menos?”, ou então, “qual é a probabilidade de eu vender mais sorvete se a temperatura da cidade aumentar 5 graus Celsius em um domingo?”.
Recomendados pelo LinkedIn
Estas perguntas nesse momento podem parecer bastante pueris, mas não são. A partir do momento em que você está questionando determinado fenômeno, isolando seus componentes e observando o comportamento de suas variáveis, você está fazendo o papel de cientista, questionando seus efeitos causais. O cientista da computação e estatístico Judea Pearl bate muito nessa questão no “The Book of Why”, ao deixar claro aos futuros cientistas que o pensamento científico embasado na ideia de causalidade é aquilo que a inteligência artificial (AI) deve convergir caso quiser romper as suas limitações intrínsecas de apenas jogar dados dentro de matrizes e dessas matrizes cuspir algum resultado que se parece com algo factível do mundo real.
Concebido a ideia de ciência, feita as perguntas ao modelo você precisa testar a sua hipótese. Testar a hipótese implica em verificar por meio de um painel de controle estatístico ou computacional o grau de certeza das respostas dado pelo modelo a pergunta que você fez a ele. Importante considerar aqui, que o oráculo que você consulta fornece uma resposta confiável a pergunta que você fez. Não caia na tentação de querer generalizar perguntas ao oráculo que fatalmente a matemática por detrás das respostas pode fornecer um caminho seguro para lugar nenhum. Muitas vezes o gênio da lâmpada das regressões pode ser bastante caprichoso com perguntas feitas de modo errado.
Neste sentido, construir modelos é ciência, envolve refletir e questionar o que você está fazendo e que pergunta deve ser formulada – e depois respondida pelo conjunto de técnicas que você está elaborando. Mas ao mesmo tempo é arte. Neste sentido, nem sempre se é possível ter um conjunto de dados disponível para ter um modelo estável. Para isso você deve dispor de um arsenal de técnicas como bootstrap, bases simuladas (bases fake construídas com muito amor no coração e um conhecimento profundo de teoria da probabilidade e de processos estocásticos), a habilidade de adaptar modelos de outras ciências para o caso que está sendo usado. Neste sentido, conhecer modelos de biologia, física, economia e engenharia ajuda muito a compor seu arsenal de caminhos alternativos caso aquele problema não possa ser resolvido pela técnica antes proposta.
Contudo, mais do que arte construir modelo é um voto monástico de sempre estudar e se aprimorar cada vez mais. Não tem como se saber de tudo, controlar tudo se você se fecha para a academia e para as boas práticas do que o mercado espera daqueles que são responsáveis a dar caminho a aqueles que anseiam e estão dispostos a recompensar bem a aqueles que trazem boas respostas.
Bibliografia
The book of why - Judea Pearl