Un aperçu de ce que je connais des Data Scientists
Au cours de la dernière décennie un nouvel emploi est apparu dans la liste des métiers français, le Data Scientist. Une aura de magie et de mystère a accompagné cette naissance; ce titre a quelque chose de sexy et d'attrayant sans qu’on en comprenne vraiment le sens.
Or l'arrivé d’un tel profil n’est pas imprévu et impromptu qu'elle peut sembler, mais plutôt la réponse du monde académique aux besoins générés par les évolutions scientifiques et technologiques en termes de collecte, gestion, traitement et interprétation de la donnée. Une réponse qui se prépare au minimum depuis la moitié du siècle dernier. Le terme Data Science est probablement apparu une première fois en 1968 et sa première définition a été formulée par Peter Naur en 1974.
La figure du Data Scientist est théorisée pour la première fois en 1997 par C. F. Jeff Wu qui, dans le cadre de la présidence du département de statistiques de l’université du Michigan, formule une proposition de modification dans la formation statistique suite à quoi il suggère que les statisticiens devraient être appelés Data Scientists.
En 2001 William S. Cleveland dans sa publication Data Science : an Action Plan for Expanding the Technical Areas of the Field of Statistics met en lumière le besoin de plus en plus marqué d’avoir d’un côté, des statisticiens capables d’implémenter les algorithmes d’analyse et modélisation de la donnée qu’ils maîtrisent et de l’autre, des développeurs informatiques capables de comprendre les algorithmes d’analyse et modélisation de la donnée qu’ils implémentent.
Dans son article A very short history of data science, apparu sur Forbes en 2013, Gil Press résume les étapes marquantes de cette naissance. Cependant ce récit néglige complétement ce qui s’est fait en applications statistiques aux problèmes économiques et sociaux au moins depuis les années soixante-dix.
Je conseille tout de même de compléter cette lecture par une revue de l’histoire du Discrete Choice (Wikipedia en fourni un résumé ainsi que plusieurs références très pertinentes dans sa page consacrée au Discrete Choice; d’autres suggestions de lecture : L’histoire du Machine Learning Supervisé et par Renforcement, comme je la connais, La véritable révolution de la Data Science, Les deux visages du Machine Learning (ML)) et de ce que cette discipline permet aujourd’hui (par exemple le programme de formation organisé par MIT et EPFL et les applications de StatWizards).
En effet la critique formulée par Leo Breiman en 2001 était probablement pertinente en ce qui concerne les problèmes naturels qui font l’objet de son article (émissions d’ozone selon les conditions atmosphériques, toxicité d’une molécule selon sa composition) mais arrivait tard pour ce qui se rapporte aux problèmes humains.
Dans le monde économétrique et des statistiques sociales on a pris conscience des limitations de la modélisation macroscopique-quantitative-statique et on agit en conséquence au moins depuis la critique de Lucas (1976), et les travaux en analyse et modélisation qualitative commencés par Daniel McFadden, James Heckman et Kenneth E. Train respectivement en 1978, 1985 et 1986. Aram Ghazaryan résume en termes simples la nouvelle école de pensée économique qui se développe depuis les années soixante-dix.
Ayant exercé en tant que Data Scientist depuis plus de 10 ans, avant même que le poste existe en France, j’ai eu l’occasion de partager avec des collaborateur de tous les horizons. Cela me permet d’avoir une vision assez large sur la réalité du métier.
Dans cet article je vais présenter les profils de Data Scientists existants sur le marché ainsi que les conséquences de leur état d’esprit sur les réalisation de demain.
1 Les profils Data Scientist
Le Data Scientist est un profil complet qui comprends tous les aspects de la donnée. Il a trois domaines d’expertise :
Ayant suivi un parcours académique très diversifié et de par mes échanges avec mes collègues, j’ai eu l’occasion de constater les différentes façons d’apprendre à utiliser les algorithmes de Machine Learning. Je sais donc qu’un data scientist aura tendance à avoir une compréhension différente selon qu’il ait étudié la BI, les Sciences Socio-Démographiques, les Computer Sciences, les Mathématiques/Statistiques appliquées aux phénomènes physiques et de la nature plus en générale (hors humain), l’Ingénierie, l’Econométrie classique, la Statistic AI, la Micro-économétrie et/ou le Discrete Choice.
Cela cause des différences dans l’approche de la Data Science qui se reflètent forcément dans ses applications.
1.1 No math
Les profils provenant d’un parcours d’études pauvre en math ont tendance à voir les algorithmes comme des boîtes noires produisant des résultats que notre cerveau n’est pas capable de produire, ou du moins pas avec autant d’aisance.
1.1.1 Magique
Lorsque ce profil n’a pas non plus de connaissances suffisantes en développement informatique, cela le porte le plus souvent à penser que le raisonnement est produit directement par la machine par un procédé qui nous échappe. Il aura donc tendance à se concentrer sur l’interprétation des résultats sans prêter suffisamment attention à la pertinence des algorithmes et des données utilisés.
1.1.2 Mécanique
Si le profil a par contre une bonne compréhension du développement informatique, il aura plutôt tendance à considérer les algorithmes comme une transposition en termes informatiques du fonctionnement du cerveau humain. Il choisira donc le plus souvent des algorithmes sans en comprendre le réel fonctionnement et aura tendance à en « croire » les résultats sans apprécier les biais qui l’entachent. Cette tendance peut découler de lacunes dans la préparation des données et/ou par la non prise en compte des causalités entre les facteurs considérés par l’algorithme.
1.2 Full math
En raison des différentes remarques formulées dans le monde scientifique depuis les années soixante-dix, je ne crois pas me tromper en disant que tout parcours d’études incluant une importante formation en mathématiques inclut une formation suffisante en développement informatique, au minimum depuis le début des années 2000. Ce qui différencie ces profils, selon mon expérience, est plutôt la compréhension de la différence entre les phénomènes naturels et ceux dépendants des comportements humains.
Recommandé par LinkedIn
1.2.1 Hors humain
Lorsque ce profil a appris à appliquer les algorithmes à des phénomènes naturels, il aura tendance à penser que les raisons mathématiques qui expliquent le fonctionnement de l'algorithme dans ce contexte s'appliquent de la même manière aux phénomènes humains. Il ignorera donc la plupart du temps que puisque les individus ont la faculté de raisonner, à la différence des cellules biologiques par exemple, les résultats des algorithmes peuvent être fortement biaisés, que l’hypothèse d’individus irraisonnés soit voulue ou non. Si, de plus, ce profil n’a pas de connaissances suffisantes en théorie des probabilités, il sera porté à utiliser la même approche macroscopique-quantitative-statique remise en cause depuis les années soixante-dix, tout en croyant utiliser une approche innovante.
1.2.2 Humain
Seul un profil ayant suffisamment de connaissances pour les trois casquettes du Data Scientist est à mon sens potentiellement capable de comprendre correctement l’application des algorithmes aux phénomènes humains. Cela passe, la plupart du temps, par l’adoption d’un raisonnement probabiliste et se traduit par la compréhension du raisonnement humain derrière chaque algorithme, ainsi qu’une meilleure maîtrise et interprétation des résultats produits.
2 Les scenarii qu’on peut générer pour demain
En plus d’avoir des formations très variées et des niveaux de connaissances inégales sur les trois casquettes, les data scientist sont avant tout des êtres humains. Nous nous partageons donc entre ceux qui adhèrent à leur propre morale, en préférant cela à la compréhension de l’autre, et ceux qui, comme moi, sont convaincus que tout être humain est doté de raisonnement et ses actes sont explicables si on prend le temps de les comprendre. Les premiers, selon mon expérience, ont tendance à se sentir autorisés à utiliser la Data Science pour se placer en maîtres juges vis-à-vis de leurs concitoyens aujourd’hui. Les autres souhaitent apporter leur participation pour que la Data Science, demain, serve l’humanité.
Le type d’application Data Science qui s’affirmera aujourd’hui déterminera le scénario que cette application générera pour demain.
2.1 Approche « black-box »
Si nous décidons aujourd’hui de privilégier la production rapide d’outils data, en négligeant leur documentation et sans communication transparente sur les biais qui en entachent les résultats, nous prenons un risque considérable de voir se propager des intelligences artificielles biaisées et incomprises.
2.1.1 Vérifiable
Si cela a lieu dans un cadre vérifiable, comme c’est le cas par exemple en ce qui concerne la prévision de préférences, on prend le risque que le plus grand nombre perde définitivement confiance en ces méthodes et que cela cause une sérieuse rupture dans l’évolution de notre humanité. Lorsqu’on écoute une chanson proposée, par exemple, notre propre jugement nous indique si nous l’aimons ou pas et si l’intelligence artificielle se trompe (cela peut avoir tout de même des conséquences négatives sur certains individus, imaginons un individu incapable de résister à la tentation d’acheter l’album lorsqu’il entend une nouvelle chanson, une telle intelligence artificielle le tenterait au-delà du raisonnable et si elle est mal calibrée cela ne lui apportera pas la satisfaction promise)-. Si la plupart des intelligences artificielles avec lesquelles les individus interagissent dans leur quotidien ont des biais que nous pouvons relever, on observera un refus total de son utilisation. Cela n’est pas compatible avec le fonctionnement actuel de notre société et ses promesses d’évolution.
2.1.2 Non vérifiable
Si les résultats produits par cette approche ne sont pas vérifiables, comme c’est souvent le cas lorsqu’on les utilise de façon punitive, le risque encouru est bien plus important. Imaginons par exemple une intelligence artificielle qui identifie les mauvais conducteurs potentiels, permettant de lui imposer des frais plus importants lors de la location d’un véhicule. Dans ce cas il ne sera pas possible de vérifier la fiabilité réelle des résultats et nous nous retrouverons à imposer une justice quotidienne fort probablement partiale et biaisée.
2.2 Approche « réfléchie »
Si nous privilégions aujourd’hui la réflexion, que nous reconnaissons l’importance de chaque aspect de la Data Science, de la collecte des données à l’exploitation des résultats, et que nous choisissons d’utiliser les méthodes des disciplines les mieux adaptées à chaque problématique plutôt qu’aller vers une « guerre des disciplines », nous avons alors une chance que la Data Science nous aide à évoluer vers une société équitable et éthique. Cependant le data scientist est humain et a ses propres biais de raisonnement qu’il injecte le plus souvent dans le développement de ses outils.
2.2.1 Sans centralisation ni supervision
Si l’on ne s’assure pas que le développement des intelligences artificielles est effectué avec un vrai esprit éthique, on prend le risque de permettre à une petite partie de la population de déployer des moyens bien plus puissants pour manipuler ceux qui n’ont pas la chance d’appartenir à cette nouvelle élite qui impose son algocracie.
2.2.2 Centralisé et supervisé
En adoptant un esprit éthique lors du développement et l’utilisation des intelligences artificielles, nous pouvons entreprendre la construction d’un avenir meilleur. On peut, entre autres, produire des outils capables de mieux comprendre les comportements humains afin de satisfaire les besoins de chacun de façon plus équitable ou de mieux partager les informations pour des meilleures prises de décision collectives.
Conclusions
La Data Science peut produire des outils éthiques probablement capables d’améliorations remarquables dans le fonctionnement de notre société. Cela implique toutefois qu’on choisisse d’aller dans cette direction. Sinon, la Data Science pourra servir à générer des scenarii invivables pour un grand nombre d’individus.
La question que chacun doit se poser aujourd’hui est « Quel genre d'avenir voudrais-je pour mes enfants/neveux/petits enfants/etc. ? ». Les conséquences concrètes des choix d'application que nous faisons aujourd'hui ne seront peut-être pas immédiatement visibles, quel que soit le scénario. Mais les enfants en bas âge, encore innocentes et avec une vie entièrement à construire, payerons demain les conséquences de ce que nous faisons (ou laissons faire) aujourd’hui.
Ça mérite d’y réfléchir, n’est-ce pas ?