Navalha de Ockham em projetos de Data Science

José Walter Lima

Data Scientist | Data Mining | Python | SQL | Machine Learning | Statistics | Business Analysis

Publicado em 30 de ago. de 2021

A Navalha de Ockham é uma heurística criada pelo filósofo William de Ockham para a resolução de problemas.

Este princípio determina que entre duas hipóteses igualmente válidas, a mais simples deve ser escolhida. Este não é um princípio lógico irrefutável, mas geralmente é adotado no método científico, uma vez que hipóteses mais simples são mais fáceis de serem testadas e comprovadas. Conforme mais dados são coletados e o problema fica melhor entendido, hipóteses mais complexas podem ser desenvolvidas.

Vejamos a aplicação em um problema simples. Considerando a sequência numérica: 1, 2, 3. Qual é o próximo número da sequência? Bem, são possíveis várias hipóteses aqui. Vamos considerar algumas, com diferentes complexidades.

h1: essa é uma sequência numérica normal (1, 2, 3, 4, 5, 6...), logo o próximo número é o 4.

h2: essa é a sequência de números primos (1, 2, 3, 5, 7, 11...), logo o próximo número é o 5.

h3: essa é a sequência de fibonacci (1, 2, 3, 5, 8, 13, 21...), logo o próximo número é o 5.

As três hipóteses são válidas, considerando os dados que temos até o momento. Logo, a primeira hipótese é preferível às demais. Mas, caso seja possível observar o próximo número da sequência, poderíamos definir melhor quais hipóteses considerar. Por exemplo, se o próximo número da sequência for o 5, a hipótese h1 deveria ser descartada e, entre as duas remanescentes, seria preferível escolher h2.

Recomendados pelo LinkedIn

Série: A Relevância da Metodologia CRISP para Projetos…

Claudia Mendes Nogueira Há 1 ano

4 Boas Maneiras de Iniciar a Exploração de Dados

Gustavo R Santos Há 4 anos

A ciência e a arte de se construir modelos de dados

Grupo Taking Há 2 anos

No contexto da Ciência de Dados, este princípio é o guia de duas boas práticas muito comuns nos projetos: feature selection e model selection.

Feature Selection

Determinar quais as features (variáveis) são as mais importantes na previsão do modelo serve de auxílio ao cientista de dados na exclusão de features irrelevantes ou que contribuem pouco na previsão. Dessa forma, caso seja possível conseguir a mesma qualidade de previsão com 50 features e com 10 features, é preferível utilizar apenas 10 features. Essa decisão tornará mais simples a implementação do modelo em produção, o monitoramento e melhoria do modelo no decorrer do tempo e alteração nos dados, além de tornar a explicação da previsão mais simples.

Fica aqui a indicação sobre feature selection do Mário Filho e um artigo excelente do Paulo Vasconcelos.

Model Selection

Começar o ajuste dos dados com modelos mais simples garante uma baseline para o projeto, o que serve como ponto de partida para mensurar o custo-benefício de implementar modelos mais complexos (isto é ainda mais justificado quando o volume de dados não é muito grande, situação em que modelos muitos complexos podem incorrer em overfitting). Dessa forma, não é uma boa prática começar a explorar um problema com deep learning, ainda que, depois de entender melhor os dados e o problema, essa seja a melhor solução.

Qual outra situação você já viu ou utilizou a Navalha de Ockham como guia? Comenta aí.

Navalha de Ockham em projetos de Data Science

José Walter Lima

Data Scientist | Data Mining | Python | SQL | Machine Learning | Statistics | Business Analysis

Recomendados pelo LinkedIn

Feature Selection

Model Selection

Outros artigos deste autor

Outras pessoas também visualizaram

Como selecionar atributos para resolver a maldição da dimensionalidade

A Ciência e a Arte de se construir modelos de dados

O escalonamento dos dados: Normalização ou Padronização?

Regressão Linear e seu papel na Data Science

A CIÊNCIA E ARTE DE TRABALHAR COM DADOS

Kaggle – um espaço para o cientista de dados chamar de seu

Data Science: um território ainda pouco explorado pelas empresas

O ADVENTO DO DATA SCIENCE

Um pouco da História da Visualização de Dados - Parte 2

Algumas Premissas Fundamentais em Análise de Dados

Conferir tópicos

Recomendados pelo LinkedIn

Feature Selection

Model Selection

Baseline: Você sabe o que é e utiliza em seus projetos?

19 de jul. de 2020

Conecte-se!

21 de jun. de 2020

Outras pessoas também visualizaram

Como selecionar atributos para resolver a maldição da dimensionalidade

A Ciência e a Arte de se construir modelos de dados

O escalonamento dos dados: Normalização ou Padronização?

Regressão Linear e seu papel na Data Science

A CIÊNCIA E ARTE DE TRABALHAR COM DADOS

Kaggle – um espaço para o cientista de dados chamar de seu

Data Science: um território ainda pouco explorado pelas empresas

O ADVENTO DO DATA SCIENCE

Um pouco da História da Visualização de Dados - Parte 2

Algumas Premissas Fundamentais em Análise de Dados

Conferir tópicos