Un aperçu de ce que je connais des Data Scientists

Un aperçu de ce que je connais des Data Scientists

Au cours de la dernière décennie un nouvel emploi est apparu dans la liste des métiers français, le Data Scientist. Une aura de magie et de mystère a accompagné cette naissance; ce titre a quelque chose de sexy et d'attrayant sans qu’on en comprenne vraiment le sens.

Or l'arrivé d’un tel profil n’est pas imprévu et impromptu qu'elle peut sembler, mais plutôt la réponse du monde académique aux besoins générés par les évolutions scientifiques et technologiques en termes de collecte, gestion, traitement et interprétation de la donnée. Une réponse qui se prépare au minimum depuis la moitié du siècle dernier. Le terme Data Science est probablement apparu une première fois en 1968 et sa première définition a été formulée par Peter Naur en 1974.

La figure du Data Scientist est théorisée pour la première fois en 1997 par C. F. Jeff Wu qui, dans le cadre de la présidence du département de statistiques de l’université du Michigan, formule une proposition de modification dans la formation statistique suite à quoi il suggère que les statisticiens devraient être appelés Data Scientists.

En 2001 William S. Cleveland dans sa publication Data Science : an Action Plan for Expanding the Technical Areas of the Field of Statistics met en lumière le besoin de plus en plus marqué d’avoir d’un côté, des statisticiens capables d’implémenter les algorithmes d’analyse et modélisation de la donnée qu’ils maîtrisent et de l’autre, des développeurs informatiques capables de comprendre les algorithmes d’analyse et modélisation de la donnée qu’ils implémentent.

Dans son article A very short history of data science, apparu sur Forbes en 2013, Gil Press résume les étapes marquantes de cette naissance. Cependant ce récit néglige complétement ce qui s’est fait en applications statistiques aux problèmes économiques et sociaux au moins depuis les années soixante-dix.

Je conseille tout de même de compléter cette lecture par une revue de l’histoire du Discrete Choice (Wikipedia en fourni un résumé ainsi que plusieurs références très pertinentes dans sa page consacrée au Discrete Choice; d’autres suggestions de lecture : L’histoire du Machine Learning Supervisé et par Renforcement, comme je la connais, La véritable révolution de la Data Science, Les deux visages du Machine Learning (ML)) et de ce que cette discipline permet aujourd’hui (par exemple le programme de formation organisé par MIT et EPFL et les applications de StatWizards).

En effet la critique formulée par Leo Breiman en 2001 était probablement pertinente en ce qui concerne les problèmes naturels qui font l’objet de son article (émissions d’ozone selon les conditions atmosphériques, toxicité d’une molécule selon sa composition) mais arrivait tard pour ce qui se rapporte aux problèmes humains.

Dans le monde économétrique et des statistiques sociales on a pris conscience des limitations de la modélisation macroscopique-quantitative-statique et on agit en conséquence au moins depuis la critique de Lucas (1976), et les travaux en analyse et modélisation qualitative commencés par Daniel McFadden, James Heckman et Kenneth E. Train respectivement en 1978, 1985 et 1986. Aram Ghazaryan résume en termes simples la nouvelle école de pensée économique qui se développe depuis les années soixante-dix.

Ayant exercé en tant que Data Scientist depuis plus de 10 ans, avant même que le poste existe en France, j’ai eu l’occasion de partager avec des collaborateur de tous les horizons. Cela me permet d’avoir une vision assez large sur la réalité du métier.

Dans cet article je vais présenter les profils de Data Scientists existants sur le marché ainsi que les conséquences de leur état d’esprit sur les réalisation de demain.

1      Les profils Data Scientist

Le Data Scientist est un profil complet qui comprends tous les aspects de la donnée. Il a trois domaines d’expertise :

  • L’analyse statistique de la donnée, notamment socio-économique et démographique
  • La modélisation mathématique
  • Le développement informatique

Ayant suivi un parcours académique très diversifié et de par mes échanges avec mes collègues, j’ai eu l’occasion de constater les différentes façons d’apprendre à utiliser les algorithmes de Machine Learning. Je sais donc qu’un data scientist aura tendance à avoir une compréhension différente selon qu’il ait étudié la BI, les Sciences Socio-Démographiques, les Computer Sciences, les Mathématiques/Statistiques appliquées aux phénomènes physiques et de la nature plus en générale (hors humain), l’Ingénierie, l’Econométrie classique, la Statistic AI, la Micro-économétrie et/ou le Discrete Choice.

Cela cause des différences dans l’approche de la Data Science qui se reflètent forcément dans ses applications.

1.1     No math

Les profils provenant d’un parcours d’études pauvre en math ont tendance à voir les algorithmes comme des boîtes noires produisant des résultats que notre cerveau n’est pas capable de produire, ou du moins pas avec autant d’aisance.

1.1.1      Magique

Lorsque ce profil n’a pas non plus de connaissances suffisantes en développement informatique, cela le porte le plus souvent à penser que le raisonnement est produit directement par la machine par un procédé qui nous échappe. Il aura donc tendance à se concentrer sur l’interprétation des résultats sans prêter suffisamment attention à la pertinence des algorithmes et des données utilisés.

1.1.2      Mécanique

Si le profil a par contre une bonne compréhension du développement informatique, il aura plutôt tendance à considérer les algorithmes comme une transposition en termes informatiques du fonctionnement du cerveau humain. Il choisira donc le plus souvent des algorithmes sans en comprendre le réel fonctionnement et aura tendance à en « croire » les résultats sans apprécier les biais qui l’entachent. Cette tendance peut découler de lacunes dans la préparation des données et/ou par la non prise en compte des causalités entre les facteurs considérés par l’algorithme.

1.2     Full math

En raison des différentes remarques formulées dans le monde scientifique depuis les années soixante-dix, je ne crois pas me tromper en disant que tout parcours d’études incluant une importante formation en mathématiques inclut une formation suffisante en développement informatique, au minimum depuis le début des années 2000. Ce qui différencie ces profils, selon mon expérience, est plutôt la compréhension de la différence entre les phénomènes naturels et ceux dépendants des comportements humains.

1.2.1      Hors humain

Lorsque ce profil a appris à appliquer les algorithmes à des phénomènes naturels, il aura tendance à penser que les raisons mathématiques qui expliquent le fonctionnement de l'algorithme dans ce contexte s'appliquent de la même manière aux phénomènes humains. Il ignorera donc la plupart du temps que puisque les individus ont la faculté de raisonner, à la différence des cellules biologiques par exemple, les résultats des algorithmes peuvent être fortement biaisés, que l’hypothèse d’individus irraisonnés soit voulue ou non. Si, de plus, ce profil n’a pas de connaissances suffisantes en théorie des probabilités, il sera porté à utiliser la même approche macroscopique-quantitative-statique remise en cause depuis les années soixante-dix, tout en croyant utiliser une approche innovante.

1.2.2      Humain

Seul un profil ayant suffisamment de connaissances pour les trois casquettes du Data Scientist est à mon sens potentiellement capable de comprendre correctement l’application des algorithmes aux phénomènes humains. Cela passe, la plupart du temps, par l’adoption d’un raisonnement probabiliste et se traduit par la compréhension du raisonnement humain derrière chaque algorithme, ainsi qu’une meilleure maîtrise et interprétation des résultats produits.

2      Les scenarii qu’on peut générer pour demain

En plus d’avoir des formations très variées et des niveaux de connaissances inégales sur les trois casquettes, les data scientist sont avant tout des êtres humains. Nous nous partageons donc entre ceux qui adhèrent à leur propre morale, en préférant cela à la compréhension de l’autre, et ceux qui, comme moi, sont convaincus que tout être humain est doté de raisonnement et ses actes sont explicables si on prend le temps de les comprendre. Les premiers, selon mon expérience, ont tendance à se sentir autorisés à utiliser la Data Science pour se placer en maîtres juges vis-à-vis de leurs concitoyens aujourd’hui. Les autres souhaitent apporter leur participation pour que la Data Science, demain, serve l’humanité.

Le type d’application Data Science qui s’affirmera aujourd’hui déterminera le scénario que cette application générera pour demain.

2.1     Approche « black-box »

Si nous décidons aujourd’hui de privilégier la production rapide d’outils data, en négligeant leur documentation et sans communication transparente sur les biais qui en entachent les résultats, nous prenons un risque considérable de voir se propager des intelligences artificielles biaisées et incomprises.

2.1.1      Vérifiable

Si cela a lieu dans un cadre vérifiable, comme c’est le cas par exemple en ce qui concerne la prévision de préférences, on prend le risque que le plus grand nombre perde définitivement confiance en ces méthodes et que cela cause une sérieuse rupture dans l’évolution de notre humanité. Lorsqu’on écoute une chanson proposée, par exemple, notre propre jugement nous indique si nous l’aimons ou pas et si l’intelligence artificielle se trompe (cela peut avoir tout de même des conséquences négatives sur certains individus, imaginons un individu incapable de résister à la tentation d’acheter l’album lorsqu’il entend une nouvelle chanson, une telle intelligence artificielle le tenterait au-delà du raisonnable et si elle est mal calibrée cela ne lui apportera pas la satisfaction promise)-. Si la plupart des intelligences artificielles avec lesquelles les individus interagissent dans leur quotidien ont des biais que nous pouvons relever, on observera un refus total de son utilisation. Cela n’est pas compatible avec le fonctionnement actuel de notre société et ses promesses d’évolution.

2.1.2      Non vérifiable

Si les résultats produits par cette approche ne sont pas vérifiables, comme c’est souvent le cas lorsqu’on les utilise de façon punitive, le risque encouru est bien plus important. Imaginons par exemple une intelligence artificielle qui identifie les mauvais conducteurs potentiels, permettant de lui imposer des frais plus importants lors de la location d’un véhicule. Dans ce cas il ne sera pas possible de vérifier la fiabilité réelle des résultats et nous nous retrouverons à imposer une justice quotidienne fort probablement partiale et biaisée.

2.2     Approche « réfléchie »

Si nous privilégions aujourd’hui la réflexion, que nous reconnaissons l’importance de chaque aspect de la Data Science, de la collecte des données à l’exploitation des résultats, et que nous choisissons d’utiliser les méthodes des disciplines les mieux adaptées à chaque problématique plutôt qu’aller vers une « guerre des disciplines », nous avons alors une chance que la Data Science nous aide à évoluer vers une société équitable et éthique. Cependant le data scientist est humain et a ses propres biais de raisonnement qu’il injecte le plus souvent dans le développement de ses outils.

2.2.1      Sans centralisation ni supervision

Si l’on ne s’assure pas que le développement des intelligences artificielles est effectué avec un vrai esprit éthique, on prend le risque de permettre à une petite partie de la population de déployer des moyens bien plus puissants pour manipuler ceux qui n’ont pas la chance d’appartenir à cette nouvelle élite qui impose son algocracie.

2.2.2      Centralisé et supervisé

En adoptant un esprit éthique lors du développement et l’utilisation des intelligences artificielles, nous pouvons entreprendre la construction d’un avenir meilleur. On peut, entre autres, produire des outils capables de mieux comprendre les comportements humains afin de satisfaire les besoins de chacun de façon plus équitable ou de mieux partager les informations pour des meilleures prises de décision collectives.

Conclusions

La Data Science peut produire des outils éthiques probablement capables d’améliorations remarquables dans le fonctionnement de notre société. Cela implique toutefois qu’on choisisse d’aller dans cette direction. Sinon, la Data Science pourra servir à générer des scenarii invivables pour un grand nombre d’individus.

La question que chacun doit se poser aujourd’hui est « Quel genre d'avenir voudrais-je pour mes enfants/neveux/petits enfants/etc. ? ». Les conséquences concrètes des choix d'application que nous faisons aujourd'hui ne seront peut-être pas immédiatement visibles, quel que soit le scénario. Mais les enfants en bas âge, encore innocentes et avec une vie entièrement à construire, payerons demain les conséquences de ce que nous faisons (ou laissons faire) aujourd’hui.

Ça mérite d’y réfléchir, n’est-ce pas ? 

Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Giulia Cernicchiaro

  • Unsupervised Machine Learning

    Unsupervised Machine Learning

    Qu'est ce que le machine Learning ? Avant toute chose et pour bien comprendre cet article qui porte sur le Machine…

  • Le Discrete Choice

    Le Discrete Choice

    Introduction Avant de vous expliquer plus en détail le discrete choice, une des disciplines ayant permis d'accélérer de…

  • La Data - Tout ce qu'il faut savoir !

    La Data - Tout ce qu'il faut savoir !

    Aujourd'hui, la Data est considérée comme le nouvel eldorado de notre ère, une entité "récente" qui laisse croire que…

  • Les structures de donnée

    Les structures de donnée

    De nos jours, la data est reine. Comprendre et utiliser efficacement les structures de données est crucial pour tout…

  • Le minimum à savoir pour appréhender la Régression Linéaire !

    Le minimum à savoir pour appréhender la Régression Linéaire !

    Introduction "Tout ce que vous devez savoir sur la régression linéaire !" Je vois souvent des publications commençant…

  • Les outils SMART et comment je les connais !

    Les outils SMART et comment je les connais !

    Introduction Dans un monde où la Data Science et le Big Data sont devenus des piliers de la transformation numérique…

  • Et si on en profitait pour changer de stratégie ?

    Et si on en profitait pour changer de stratégie ?

    "Si les scientifiques le disent ..

  • IA Confidential

    IA Confidential

    La Data Science se charge de la compréhension, du traitement et l’exploitation des données disponibles afin d’alimenter…

  • Le rôle du Big Data dans la révolution de la Data Science

    Le rôle du Big Data dans la révolution de la Data Science

    Les avancées en termes de modélisation des phénomènes humains ont donné le la à la révolution de la Data Science…

  • Les deux visages du Machine Learning (ML)

    Les deux visages du Machine Learning (ML)

    Le ML ou "Machine Learning" est souvent présenté aujourd’hui comme une invention récente des Computer Sciences. Selon…

    2 commentaires

Autres pages consultées

Explorer les sujets