Navalha de Ockham em projetos de Data Science
A Navalha de Ockham é uma heurística criada pelo filósofo William de Ockham para a resolução de problemas.
Este princípio determina que entre duas hipóteses igualmente válidas, a mais simples deve ser escolhida. Este não é um princípio lógico irrefutável, mas geralmente é adotado no método científico, uma vez que hipóteses mais simples são mais fáceis de serem testadas e comprovadas. Conforme mais dados são coletados e o problema fica melhor entendido, hipóteses mais complexas podem ser desenvolvidas.
Vejamos a aplicação em um problema simples. Considerando a sequência numérica: 1, 2, 3. Qual é o próximo número da sequência? Bem, são possíveis várias hipóteses aqui. Vamos considerar algumas, com diferentes complexidades.
h1: essa é uma sequência numérica normal (1, 2, 3, 4, 5, 6...), logo o próximo número é o 4.
h2: essa é a sequência de números primos (1, 2, 3, 5, 7, 11...), logo o próximo número é o 5.
h3: essa é a sequência de fibonacci (1, 2, 3, 5, 8, 13, 21...), logo o próximo número é o 5.
As três hipóteses são válidas, considerando os dados que temos até o momento. Logo, a primeira hipótese é preferível às demais. Mas, caso seja possível observar o próximo número da sequência, poderíamos definir melhor quais hipóteses considerar. Por exemplo, se o próximo número da sequência for o 5, a hipótese h1 deveria ser descartada e, entre as duas remanescentes, seria preferível escolher h2.
Recomendados pelo LinkedIn
No contexto da Ciência de Dados, este princípio é o guia de duas boas práticas muito comuns nos projetos: feature selection e model selection.
Feature Selection
Determinar quais as features (variáveis) são as mais importantes na previsão do modelo serve de auxílio ao cientista de dados na exclusão de features irrelevantes ou que contribuem pouco na previsão. Dessa forma, caso seja possível conseguir a mesma qualidade de previsão com 50 features e com 10 features, é preferível utilizar apenas 10 features. Essa decisão tornará mais simples a implementação do modelo em produção, o monitoramento e melhoria do modelo no decorrer do tempo e alteração nos dados, além de tornar a explicação da previsão mais simples.
Fica aqui a indicação sobre feature selection do Mário Filho e um artigo excelente do Paulo Vasconcelos.
Model Selection
Começar o ajuste dos dados com modelos mais simples garante uma baseline para o projeto, o que serve como ponto de partida para mensurar o custo-benefício de implementar modelos mais complexos (isto é ainda mais justificado quando o volume de dados não é muito grande, situação em que modelos muitos complexos podem incorrer em overfitting). Dessa forma, não é uma boa prática começar a explorar um problema com deep learning, ainda que, depois de entender melhor os dados e o problema, essa seja a melhor solução.
Qual outra situação você já viu ou utilizou a Navalha de Ockham como guia? Comenta aí.