Data science sans conscience…
… n'est que ruine de l'IA. Voilà la synthèse que je propose de cet article du Journal du Net évoquant les limites du « machine learning » automatisé. Car, en arrière-plan, c'est aussi une certaine approche de la science des données, une dérive engendrée par un engouement incontrôlé, qu'il semble nécessaire de remettre en cause.
Ce que nous appelons communément intelligence artificielle aujourd'hui consiste essentiellement en une vaste catégorie d'algorithmes dits de « machine learning », dont le rôle est d'explorer d'importants volumes d'informations, d'y repérer, de manière plus ou moins autonome, de possibles corrélations et autres motifs récurrents, puis d'exploiter ceux-ci sur des jeux de données « vierges », afin de réaliser des classifications, des projections, voire des prévisions… sans aucune intervention humaine.
Parce qu'il existe une multitude d'approches différentes à ces mécanismes d'analyse, les fournisseurs de technologie – des spécialistes tels que DataRobot aux généralistes comme Dataiku, en passant par les géants du web, Google, Amazon, Microsoft… – ont progressivement développé des solutions capables d'en exécuter un grand nombre en parallèle, de manière à identifier et sélectionner rapidement, en comparant leurs résultats, ceux qui paraissent les plus efficaces pour chaque problème qui leur sont soumis.
La méthode n'a rien de surprenant : elle reproduit, sous une forme robotisée, une partie de l'activité des professionnels des données, au cours de laquelle ils doivent justement rechercher les algorithmes les plus appropriés pour la tâche à réaliser. En revanche, si ces outils émergents permettent d'économiser un temps précieux sur ces opérations, avec une performance remarquable sur des questions simples, ils ne s'avèrent résolument pas en mesure, à ce jour, de traiter seuls les sujets les plus complexes.
Quand il s'agit d'établir des prédictions en économétrie, dans le domaine médical et pharmaceutique, en matière de fraude bancaire… le nombre et la typologie variée des paramètres à prendre en compte rend obligatoire l'intervention d'un analyste chevronné, qui va, souvent par le cumul de son expérience et de son intuition, combiner des techniques distinctes, adapter les modèles mis en œuvre, ajuster les spécifications des données en entrée… dans le but d'affiner et optimiser ses conclusions.
Malheureusement, trop de soi-disant experts, parfois formés à la va-vite et manquant de recul, oublient cet aspect essentiel de leur métier. Sans prendre le temps de réfléchir au sens profond de la matière première qu'ils manipulent, de trier les critères prioritaires, de prêter attention aux fausses corrélations et aux inductions abusives, de s'interroger sur l'explicabilité de leurs résultats…, ils se contentent d'appliquer « bêtement » les algorithmes disponibles afin de retenir celui qui paraît mécaniquement le meilleur.
Ainsi, le défaut reproché aux nouvelles plates-formes peut-il être adressé à certains scientifiques des données, qui, en dépit de leur médiocrité (qui peut n'être que de l'immaturité), sont recrutés en masse par les entreprises désireuses de profiter des opportunités de l'intelligence artificielle. Ceux-là pourront donc être aisément remplacés par des logiciels, plus compétitifs, ce qui devrait encourager les plus motivés à renforcer leurs compétences et décupler leur valeur auprès de leur employeur.
Article publié initialement sur le blog « C'est pas mon idée ! »