Le Diable s'habille en Data.
Le scandale de Cambridge Analytica est une fable moderne qui s'achève mais dont il reste à tirer les morales. Ses personnages questionnent la magie des discours qui habillent des réalités scientifiques moins glorieuses, la valeur marchande incommensurable des données et l'immense besoin de régulation pour le monde qui s'ouvre à nous.
Cambridge Analytica aurait utilisé les données personnelles de millions d’utilisateurs Facebook pour optimiser (entre autres) la campagne de Donald Trump par un adressage publicitaire pour le moins intrusif. Cette boutique obscure aurait en effet modélisé la personnalité et les caractéristiques individuelles de chacune des personnes en base à partir des likes de Facebook pour ensuite leur adresser des messages adaptés à leurs traits psychologiques.
Bien évidemment, raconté comme cela à l’heure de la RGPD, personne ne s’étonnera de la vague d’opprobre qui s’est abattue sur cette société, jusqu’à contraindre l’icône juvénile mais éclaboussée Mark Zuckerberg au port du costume trois-pièces et à des excuses en règles devant le Congrès américain. Et puis il y a la morgue extrême du CEO de Cambridge Analytica, Alexander Nix. Synthèse de maniérisme upper-class anglais et d’un obscurantisme technologique sur des sujets en vogue : Cambridge Analytica aurait ainsi développé un projet de crypto-currency propriétaire avant que n’éclate le scandale des données. Tout est réuni pour dresser le portrait de nouveaux Docteur Folamour de la donnée personnelle et les vouer aux gémonies.
Il serait très simple de refermer le dossier Cambridge Analytica en y apposant le sceau de l’infamie et en se persuadant avec naïveté d’avoir dissuadé tous les apprentis-sorciers de développer leur maléfices grâce à la vindicte mondiale. Cambridge Analytica a depuis fait faillite, le méchant est mort, avis aux méchants !
Mais quitte à prendre l’affaire comme une fable, il fait en chercher le sens et la morale car elle en dit aussi énormément sur notre fascination pour le pouvoir de la donnée. Comme toutes les fascinations, elle fleurte avec le rêve et l’illusion et tend à s’alléger de la raison et de la science. Si j’écris ces lignes, c’est bien parce que même en BtoB, je retrouve des traces de cette fascination dans les conversations et les discours, et que le plus utile dans la fable, c’est bien la morale.
Le diable s’habille en data (scientist)
Avant que le scandale n’éclate, Cambridge Analytica bénéficiait de tous les attributs de la start-up miraculeuse. L’article du Monde du 4 avril 2017 (disponible ici) posait encore le décor de cette officine en jouant sur le mythe du petit génie : l’histoire s’ouvre sur la description d’un de ses employés, astrophysicien « décryptant les lumières extrêmement faibles captées par les téléscopes les plus puissants » (à bon entendeur...). Il en rajoute un peu pour impressionner : « Par rapport à l’astrophysique, le travail est étonnamment similaire. Au lieu des galaxies, on décrypte des gens. ». Allons donc… Et l’article de rappeler que l’on parle bien ici d’ «algorithmes » et de « modèles mathématiques » à « base psychométrique »… N’essayez même pas de comprendre… Prenez juste le résultat, c’est du garanti 100% deep learning. Le nec plus ultra. C’est bien le message que Alexander Nix voulait faire passer dans ses interventions également. Celui d’une complexité inaccessible au commun des mortels. Et pour cela il n’hésitait jamais à mélanger les concepts pour créer un obscurantisme mercantile, s’en tenant à de grands principes peu documentés, comme par exemple dans cette interview de Techcrunch :
« De manière générale, l'accumulation des données est un facteur qui va augmenter la valeur des sociétés d'analyse comme la nôtre. Plus de données signifie besoin de plus d'analyses, point à la ligne. Et puis à l'autre extrémité - si vous le voyez comme un sandwich et que nous sommes au milieu - vous avez une blockchain. En ayant distribué la technologie du ledger, vous serez aisni en mesure de faire preuve de transparence et de rendre compte de la façon dont les données sont utilisées et dont les ensembles de données sont utilisés et mis en œuvre, pour toujours, à perpétuité. Et donc, oui, le paysage des données devient de plus en plus effrayant avec l'IOT. Mais d'un autre côté, ce sera davantage d'autoréglementation par le biais de la blockchain et ce sera plus transparent. Et ces deux choses sont comme deux tranches de pain , l'analytique étant le fromage au milieu du sandwich. L'analyse va jouer un rôle de plus en plus important dans le décryptage d'énormes quantités de données, en leur donnant un sens, en les appliquant dans de nombreux domaines différents et en utilisant ensuite les technologies de blockchain pour sécuriser le tout »
CQDF. Ce type qui parle de tout doit être fort… mais au fait, que fait-il au juste ?
La première morale de la fable est qu’il faut se tenir en garde quand l’expert proclamé masque dans un flou artistique et une logorrhée technoïde sur ce qu’il fabrique effectivement, Sans que l’on comprenne vraiment, ni n’ose demander, de peur d’avoir l’air d’un homo pre-analyticus, cro-magnon moderne. Morale #1 : En matière d’intelligence artificielle et de modèles analytiques, la clarté est grande vertu.
La vraie valeur est plus souvent dans la donnée, pas dans l’algorithme
L’histoire de Cambridge Analytica est en fait l’aboutissement d’un roman d’espionnage à rebondissements, très bien racontée dans un article de Motherboard. Tout débute en 2008 lorsqu’un étudiant Polonais en Psychologie crée l’application MyPersonality. Elle mesure la personnalité de chaque utilisateur au-travers d’un questionnaire classant les gens en 5 grandes catégories, et couple ces résultats à l’activité et les « likes » des répondants sur Facebook, alors assez permissif sur les données personnelles. Cette application aurait été lancée dans un but initial de recherche académique mais rencontre un large succès public qui permet à Kosinski de disposer d’un volume important de données.
Intuitivement, on comprend assez bien que la manifestation d’intérêts cumulés pour tel ou tel sujet sur Facebook finit bien par dessiner un portrait assez granulaire de l’utilisateur. Le mérite de Kosinski aura certainement été de donner un cadre et une quantification à cette intuition. Mais à bien regarder ses travaux, rendus publics, on se rend compte toutefois qu’ils sont assez sommaires du point de vue modélisation statistique (en gros, des régressions linéaires ou logistiques). La puissance de la démarche réside ainsi plus dans la quantité de données collectée que dans le génie des algorithmes. Et malgré cela, les résultats gardent un arrière-goût de tautologie. Ainsi démontrent-ils que les « likers » Mitt Romney (le candidat Républicain à la Présidentielle américaine de 2012) indiquent des personnes plus âgées que les likers de « Hello Kitty », ou que le like de Nicky Minaj (artiste noire née à Trinidad-et-Tobago) est plus le fait d’Afro-Américain que ne le sont les likesde camping ou… de Mitt Romney ! Sans être un grand expert de la société américaine, on sent bien qu’il n’y a pas besoin de modèle statistique très sophistiqués pour peu que l’on ait des données aussi précises. Mais laissons ici Kolinski à ses travaux, il reviendra plus tard dans la fable.
Dans une rocambolesque aventure, Michal Kosinski suscitera par ses résultats l’intérêt d’un étudiant russe en psychologie, Aleksandr Kogan, en fait faux-nez de la société holding de Cambridge Analaytica et aujourd’hui exilé à Singapour, sous l’identité de… Dr Spectre ! Ian Flemming n’aurait sans doute pas trouvé meilleur nom pour le vilain dans un James Bond. A partir de là toute devient un peu flou, si ce n’est que les travaux de Kosinski auront été répliqués à grande échelle par Kogan, avec une collecte massive de données personnelles Facebook au travers d’un questionnaire de personnalité couplé à l’analyse des likes. Kogan a ensuite transféré ses données à Cambridge Analytica dans des circonstances suspectes et disputées. Puis Nix a fait le show.
Mais il n’est pas évident du tout que le contenu des modèles analytiques utilisés par Cambridge Analytica soit ni plus sophisitiqué ni plus exclusifs que les modèles originaux, assez rudimentaires de Kosinski. Un étudiant allemand s’est même amusé à reproduire l’intégralité de la méthode à partir d’extraits de données de Kosinski et de ressources statistiques disponibles gratuitement dans le monde Open Source (logiciel R en l’occurrence). Apparemment, toute personne sachant un peu accéder aux outils statistiques modernes pourrait s’approcher du Graal de la « méthode » Cambridge Analytica.
Cela démontre bien que c’est la donnée qui a fait l’exclusivité et la puissance de la démarche, bien plus que les algorithmes eux-mêmes dont la diffusion en banalise souvent la valeur intrinsèque sauf dans des cas de recherche extrêmes et très spécifiques où le data scientist de haut vol fera encore la différence. Dans le cas d’espèce, la donnée a circulé illégalement et à l’insu des personnes concernées et les modèles statistiques utilisés sont à portée de click. #Morale 2 : la donnée représente toujours la valeur fondamentale des approches analytiques. Avant les modèles eux-mêmes. Et comme tout objet de valeur dans ce bas monde, elle suscite la convoitise et la tentation.
Un soufre de jeunesse
Pour la dernière morale, oublions Cambridge Analytica et intéressons-nous de plus prêts à Michal Kosinski ou Aleksandr Kogan, alias Dr Spectre. Devant l’ampleur de la vague médiatique, ils prennent naturellement leurs distances avec l’affaire, crient au vol, ou au bouc-émissaire. Ils étaient jeunes et brillants, focalisés sur leurs recherches, peut-être naïfs, peut-être inconscients, peut-être malhonnêtes, ou tout à la fois… Un jour, Justice se prononcera sur leurs cas.
Kosinski est un personnage pour le moins chamoiré. Clamant toujours qu’il n’a rien à voir avec Cambridge Analytica, ses travaux révèlent néanmoins qu’il est peut-être le premier Docteur Folamour cette l’histoire.
Kosinski connaît aujourd’hui un grand succès mondial par ses discours et ses interventions sur un monde « post-privacy », sans protection des données personnelles, auquel il croît personnellement. Il se base pour cela sur ses derniers travaux impliquant la collecte de dizaines de milliers de photographies sur les sites de rencontre desquels il a aussi déterminé l'orientation sexuelle de chaque utilisateur (en fonction du type de personne « recherchée »). Ses travaux ont ensuite consisté à prévoir la préférence sexuelle par simple analyse de la photographie. Ses analyses sont disponibles et méritent une lecture scientifique critique. On y trouve aussi quelques passages savoureux (« les hommes hétérosexuels et les femmes lesbiennes ont tendance à porter des casquettes de baseball » ou que les hommes homosexuels peuvent avoir des pratiques de soin et d’épilation du visage différentes… Le tout matinée de rappel de théories du 19èmesiècle sur la révélation des caractères individuels par les apparences externes, ou d’hypothèses sur les sources hormonales pré-natales de l’homosexualité.
Cette publication a fait l’objet de critiques nombreuses et argumentées du point de vie scientifique, pointant les faiblesses de la démonstration. Mais aussi évidemment du point de vue du respect des données personnelles. La collecte de photos individuelles sur des sites de rencontre pour effectuer ce genre de travaux est une véritable source d’inquiétude. Kosinski a beau jeu de dire qu’il le fait pour montrer que c’est possible en guide d’avertissement à l’humanité tout entière… et en attendant en guise de source de notoriété grandissante pour sa personne. Il multiplie les déclarations fracassantes : « je garde mon profile Facebook totalement ouvert. Je crois qu’à l’avenir il n’y aura plus de protection des données individuelles. Il vaut donc mieux agir et se comporter avec en tête l’hypothèse que tout ce que vous faites est public. », La protection des données est une cause perdue », et se laisse parfois aller à quelques propos délirants et complotistes : « même les décisions sur la façon de gérer un pays sont aujourd’hui prises par des ordinateurs. Pour le moment, ils se cachent derrière l’homme politique. Et c’est bien ainsi car les ordinateurs sont bien meilleurs que les humains pour prendre des décisions ». Et quand à la question de savoir si son modèle de prédiction des préférence sexuelle fonctionne il répond « avec une précision parfaite », on sent que le scientifique s’est effacé au profit de l’ego séduit par l’impact médiatique de ses provocations (qu’il liste soigneusement sur son site).
L’Europe se dote cette semaine d’un arsenal juridique inédit pour la protection des données individuelles. Comme tous les dirigeants d’entreprise, je tire un peu la langue pour mettre les choses en place dans les temps. Mais cela se fera. Et la lecture des travaux de Kosinski me conforte dans le droit individuel à connaître les utilisations faites de ses propres données. Et il faudrait en effet bien étendre ces obligations à ces apprentis-sorciers en recherche de lumière car leur statut académique ne leur donne pas le droit de jouer impunément avec le bouton nucléaire de la data, indépendamment de toute régulation. La dernière morale de la fable en découle. Morale #3 : malgré la difficulté qu’elle occasionne pour nous tous, la réglementation sur la protection des données est une absolue nécessité et doit s’imposer à tous sans exception.
En guise de conclusion, je me dois de rappeler qu’à titre personnel je crois profondément en la transformation positive qu’apporteront le cumul des données, l’intelligence artificielle et la robotisation de nos économies. Avec les experts du groupe CXP nous travaillons quotidiennement et objectivement à son analyse et son décryptage. Mais cela doit rester dans un cadre contrôlé et les frontières d’un respect humain que certains personnages de la fable tutoient voire dépassent.
Et il y aura d’autres fables pour nous effrayer. Avec d’autres personnages ou les mêmes. Le Dr Kolinski a l’air de multiplier ses prises de paroles. Cambridge Analytica a fermé ses portes mais son état-major a créé une nouvelle société (Emerdata) sur le même créneau.
Tout cela sonne comme un appel à la vigilance.
Yannick excelle a dire simplement des choses compliquees! En effet, il faut se mefier de ceux qui font passer la complexite pour l'intelligence
Au passage parfaite remise en perspective: la donnée plus importante que le modèle, et derrière l'apparente nouveauté des techniques de bonnes vieilles méthodes statistiques.
Data | Insights | Intelligence - Navigating the new decade.
6 ansThe graphic tells the story well. If only I could read French too....
Directrice des Ressources Humaines et des affaires générales chez OPCO des Entreprises de Proximité
6 ansExcellent article !
Ex. Market Research
6 ansMerci Yannick, et puisqu’une saine régulation devra se construire par confrontation de la « magie des discours » aux « réalités moins glorieuses », avec un peu de volonté politique, la boucle pourrait être bouclée !!