La dernière étape pour traiter les valeurs aberrantes consiste à évaluer l’effet et l’importance des valeurs aberrantes sur vos modèles ML. Cela peut vous aider à décider si la suppression, le remplacement ou la mise à l’échelle des valeurs aberrantes est bénéfique ou préjudiciable pour votre tâche ML spécifique, et comment affiner vos stratégies de nettoyage et de prétraitement des données. Des statistiques descriptives ou des visualisations peuvent être utilisées pour comparer le résumé et la distribution de vos données avant et après le traitement des valeurs aberrantes. De cette façon, vous pouvez observer des changements dans la moyenne, la médiane, la variance, la plage, l’asymétrie ou l’aplatissement. De plus, des statistiques inférentielles ou des tests d’hypothèses peuvent être utilisés pour comparer la signification et la confiance de vos données avant et après avoir traité des valeurs aberrantes. Cela peut vous aider à valider et à justifier vos décisions concernant les valeurs aberrantes concernant la valeur p, le test t, l’ANOVA ou le test du chi carré. Enfin, les métriques ou les techniques de validation de l’apprentissage automatique peuvent être utilisées pour comparer les performances et la précision de vos modèles de ML avant et après avoir traité les valeurs aberrantes. De cette façon, vous pouvez mesurer et optimiser les résultats et les objectifs de votre apprentissage automatique, tels que l’exactitude, la précision, le rappel, le score F1, le MSE, le R2 ou la validation croisée. Les bibliothèques Python telles que pandas, matplotlib, seaborn, scipy, statsmodels ou sklearn peuvent être utilisées pour évaluer les valeurs aberrantes avec ces méthodes en fonction du type et de l’objectif de votre tâche ML.