Ethique et Data Science
L’actualité des derniers temps pousse les média à parler de plus en plus souvent d’éthique des nouvelles technologies. De plus en plus de projets de recherche sur ce sujet voient le jour et plusieurs initiatives sont proposées au tour du monde. Cependant, vue la multiplicité de visions qu’on en a, à mon avis cette activité non coordonnée risque de causer une trop grande dispersion des efforts en donnant vie à trop de projets redondants ou contradictoires. De plus, les visions erronées de ce qu'est réellement la Data Science peuvent conduire à se concentrer sur des problèmes au mieux non prioritaires, comme la prise de conscience autonome des machines.
Je vais donc partager avec vous ma vision sur la mise en place d’un accompagnement éthique des produits de Data Science, de leur conception à leur utilisation.
Les outils DS et leur particularité
La Data Science est une discipline qui regroupe un grand nombre d’outils mathématiques pour le traitement, l’analyse et la modélisation des données. Ceux-ci sont utilisés par les Data Scientists pour construire les outils finaux comme les extracteurs d’information, les tableaux de bord interactifs, les intelligences artificielles mono tâche, les systèmes de ludification (scoring), les systèmes de prévision court/moyen/long terme, les simulateurs comportementaux.
Les produits de Data Science peuvent apporter des bénéfices à l’être humain ou être utilisés pour lui nuire, comme tout outil. Sauf que dans ce cas, la façon dans laquelle les ‘outils de base’, à savoir les algorithmes, sont utilisés pour développer le produit joue un rôle primaire sur les conséquences de son utilisation. En effet, si un produit DS est conçu sur des mauvais raisonnements ou carrément pour être nuisible, peu importe s’il est utilisé à bon escient il causera des dégâts.
Faisons un exemple. Imaginons de disposer d’un produit DS qui permet de reconnaître les personnes en détresse à partir de ce que l’on observe de leur vie et leurs choix. Nous pouvons avoir les meilleures intentions du monde et l’utiliser pour venir en aide à qui en a besoin, si son développeur a inclus des jugements de valeurs personnels dans sa définition de ‘personne en détresse’ nous commettrons des injustices sans même le vouloir. Si par exemple pour le développeur du simulateur quelqu’un qui n’a pas un compte épargne ne peut pas être considéré comme ‘en détresse’ parce que « il l'a cherché », en faisant confiance au simulateur sans connaître les raisonnements qui le font fonctionner nous ne reconnaîtrions jamais les personnes en détresse qui n’ont pas de ressources, donc une grosse partie de la cible réelle.
Il faut donc faire la distinction, lorsque on parle d’éthique de la Data Science, entre les algorithmes DS et les produits DS. Les deux sont des outils, pour les deux il faut définir une éthique d’utilisation si l’on veut qu’ils servent l’homme plutôt que de le desservir, mais il y a tout de même une différence non négligeable entre les deux. Si les algorithmes sont des outils mathématiques neutres, les produits finaux peuvent être eux-mêmes non éthiques. En effet une utilisation éthique des algorithmes donnera des produits neutres alors que si le développeur en manque toute utilisation du produit en manquera. Cela est certes vrai pour d’autres outils que ceux produits par les Data Scientists mais pour aucun autre cela a un impact aussi significatif, à mon sens.
Pour cette raison je suis convaincue qu’il faut tout d’abord s’attaquer à l’éthique d’utilisation des algorithmes DS et, par conséquent, des données qui les alimentent.
Bien sûr, cela n’est pas suffisant. Pour revenir à l’exemple précédent, on peut très bien avoir le cas contraire. Un outil éthique pour l'identification des personnes en détresse, développé de manière neutre, peut être utilisé de manière non éthique pour stigmatiser ces personnes. Je ne dis donc pas qu’il ne faut pas s’intéresser à l’éthique d’utilisation des produits DS. Je suggère simplement qu’il y a un ordre de priorité et qu’il est bien plus sage de le respecter, puisqu’il est nécessaire que les Data Scientist réalisent des produits neutres si l’on veut conserver la possibilité de choisir d’en faire une utilisation éthique.
Encadrer la DS non pas l'arrêter
On pourrait se dire que si la Data Science permet de construire des outils qui, en plus d’avoir un grand nombre de mauvaises utilisations possibles, peuvent eu mêmes ne pas être éthiques il faut alors arrêter de l’utiliser.
Or, cela ne signifierait pas seulement stopper net l'évolution que nous vivons depuis des dizaines d'années, mais aussi revoir complètement un grand nombre d'aspects du fonctionnement de notre société. Plus important encore, cela impliquerait de se priver des perspectives incroyables que la Data Science a déjà ouvert et peut ouvrir pour le futur de notre humanité.
Stopper la Data Science signifierait stopper les évolutions du siècle dernier dans toutes les sciences humaines et interdire aux autres sciences de partager leur connaissance par la suite, pour retourner à en limiter l’utilisation à l’étude de la nature. Stopper la Data Science serait revenir à l’obscurantisme.
En plus ça commence déjà à se démocratiser, les méthodes de Data Science sont documentées sur internet en accès libre sous différentes formes par exemple. Je suis donc d'avis que nous devrions plutôt nous concentrer sur leur utilité pour l'humanité.
Cela commence par se mettre tous d’accord sur comment utiliser les algorithmes DS, puis par l’encadrement de l’utilisation des produits DS et se termine par la sécurisation des données dont les deux s’alimentent.
Ethique à deux niveaux
En raison de sa forme particulière, la réflexion éthique autour de la Data Science doit se faire sur deux niveau.
Il faut tout d'abord que les algorithmes DS soient utilisés de façon éthique pour que le produit résultant soit neutre. Il faut donc définir une éthique de développement.
Recommandé par LinkedIn
Il faut ensuite que les choix d'utilisation des produits DS réalisés soient éthiques. Il faut donc définir une éthique d'utilisation.
Ethique de développement
De mon point de vue, une utilisation éthique des algorithmes DS implique une totale transparence concernant :
- les raisonnements et les hypothèses appliqués pendant la préparation des données et le calibrage des modèles, pour que l’utilisateur puisse s’assurer de l’absence de subjectivité avant de choisir de l’utiliser
- ses statistiques de précision qui doivent être reportées de façon claire et complète, pour que l’utilisateur soit conscient du niveau d’interprétation qu’il doit mettre si il veut utiliser les résultats.
En effet, le Data Scientist doit non seulement être éthique dans ses raisonnements, ses hypothèses et l’évaluation de la précision de ses algorithmes, mais il doit en plus permettre à l’utilisateur de juger si l’outil est neutre. Le Data Scientist est un être humain il peut se tromper. Il délivre un produit statistique, qui n’est pas déterministe, il se doit donc de donner les moyens de vérifier que son travail est utilisable pour éviter que celui-ci blesse quelqu’un sans que l’utilisateur le veuille.
Cela permettrait d’éviter de se retrouver dans un cas comme l’exemple fictif proposé plus haut ou, pour faire des exemples réels, d’avoir les moyennes d’évaluer si le Sesame Credit et COMPAS sont des produits DS non-éthiques :
Ethique d'Utilisation
Comme dit plus haut un produit DS, si les algorithmes ont été utilisés de façon éthique pour le développer, est un outil comme un autre, neutre tant qu’on ne l’utilise pas. Cependant, puisque on ne peut pas nier que l’occasion fait le larron je crois que qu’il en va de la responsabilité des Data Scientist de choisir de ne pas développer les outils dont l’utilisation pourrait porter préjudice à d’autres êtres humains.
Personnellement je crois que, avec les mêmes données, on doit préférer le développement d’un produit DS permettant de se comprendre et s’aider l’un l’autre plutôt qu'un produit permettant de manipuler ou punir les êtres humains, ou d’un produit qui peut répondre de façon équitable aux besoins de chacun et effectuer la redistribution équitable des ressources plutôt que d’un qui favorise l’enrichissement d’un individu ou d’un groupe.
Pour mieux illustrer ce que je veux dire par là voici quelques exemples concrets :
Une donnée sécurisée mais libre
Pour conclure il ne faut pas oublier que tout cela est alimenté par de la donnée, c’est-à-dire de l’information concernant des individus, leurs activités et leurs choix. On parle donc ici d’êtres humains et cette donnée mérite tout le respect.
Cependant dans un monde où de plus en plus de produits DS sont construits et utilisés, je ne crois pas qu’une restriction de la collecte et/ou l’accès aux données soit une bonne solution. En effet, selon mon expérience, la principale raison pour la quelle les produits DS d’aujourd’hui incluent des hypothèses trop éloignées de la réalité et présentent des biais de précision est l’absence de données.
Tout individu doit avoir conscience de ce qu’on fait avec ses données et pouvoir en comprendre les conséquences, ces données doivent être sécurisés pour qu’elles ne soient pas utilisées contre l’individu qui les a fournies, mais tout cela doit accompagner le chemin vers la libération de la donnée si l’on veut des produits DS capables de tenir leurs promesses.
CPO @AssessFirst
6 ansVictor Sottou 😉