IA et modèles linguistiques : vers une nouvelle hégémonie ?
Introduction
Depuis plusieurs années, nous sommes dans une phase de progression rapide des capacités de l’intelligence artificielle, et plus particulièrement des modèles linguistiques (language models) qui permettent dorénavant de réaliser avec des niveaux de performance jamais vu des tâches telles que : générer des contenus, résumer un texte, classifier un document, répondre à des questions, ou bien encore traduire un contrat.
Ces modèles linguistiques ont la particularité d’être développé par les quelques entreprises de la « Big Tech » qui ont en leur possession la puissance de calcul, les quantités de données, le financement ainsi que les talents nécessaires pour produire ces modèles linguistiques. Parmi les modèles « star » on retrouve notamment OpenAI GPT-3, Google Switch, NVidia Megatron ou encore Microsoft Turing.
Dans la suite de cet article, nous verrons dans un premier temps quelles innovations techniques ont permis à ces modèles de voir le jour, mais également quelles sont leurs limites actuelles. Ensuite, nous verrons quelles applications concrètes de ces modèles sont possibles aujourd’hui, et nous ferons un zoom spécifique sur l’usage de ces modèles au sein du métier de développeur logiciel pour en montrer tout le potentiel transformationnel. Et enfin, avant de conclure, nous aborderons également les risques socio-économiques nouveaux que créent ces modèles.
Innovations techniques et limites actuelles des modèles linguistiques
Au niveau technique, cette dernière génération de modèles linguistiques atteint de hauts niveaux de performance essentiellement grâce à la combinaison des innovations suivantes :
Cela dit, malgré les indéniables progrès réalisés sur les dernières années, un certain nombre de défis restent encore à adresser afin de pleinement démocratiser l’usage des modèles linguistiques :
Les quelques freins et défis susmentionnés n’empêchent cependant pas l’usage croissant des modèles linguistiques pour des applications concrètes et très utiles, comme nous le verront dans le paragraphe suivant.
Applications actuelles et futures des modèles linguistiques
Les modèles linguistiques sont d’ores et déjà utilisés par de nombreuses entreprises pour transformer ou améliorer l'efficacité de différents processus métiers, quels que soient les secteurs concernés. On retrouve essentiellement les grandes catégories d'applications suivantes:
Des applications plus spécifiques sont également envisagées dans des secteurs à fort potentiel. C'est le cas de la santé où Google et Microsoft ont annoncé mettre en oeuvre des technologies spécifiques avec notamment l’aide au diagnostic et au traitement des malades, la synthèse des dossiers patient, des agents conversationnels mis à disposition des patients, l’assistance aux soins ou encore la prévention. De nombreuses applications seraient également possible dans les domaines du droit et de la justice, avec par exemple la recherche de brevets et d’actes notariés, l’élaboration des arguments de plaidoiries, la recherche en droit, la prédiction des objections du juge, etc. Même si aujourd'hui, le secteur de la "LegalTech" est encore en devenir, les investissements en capital-risque ont franchi pour la première fois le milliard de dollars, et l'ont peut raisonnablement penser que la nature très textuelle des métiers du droit et de la justice les rend perméables aux innovations et gains d'efficacité permis par les modèles linguistiques.
L’objet n’est pas ici de répertorier dans une liste à la Prévert l’ensemble des applications actuelles ou futures, mais bien de faire prendre conscience que chaque tâche ou chaque métier se « nourrissant » ou produisant du texte est ou sera impacté par les modèles linguistiques. Y compris les tâches les plus « intellectuelles » telles que le raisonnement logique, l’établissement d’une preuve formelle en mathématique, ou bien encore la génération de code informatique, sur laquelle je vous propose ci-dessous une section dédiée.
Génération de code informatique
OpenAI a ouvert en aout 2021 son service Codex qui permet de convertir du langage naturel en code informatique. OpenAI Codex est le plus performant en Python, mais il est également capable de générer du code en JavaScript, Go, Perl, PHP, Ruby, Swift et TypeScript. De la même manière, DeepMind vient de créer AlphaCode, un système permettant de générer des programmes informatiques à un « niveau compétitif ». A long terme, ces deux systèmes peuvent radicalement changer la façon dont nous produisons des logiciels.
Recommandé par LinkedIn
En effet, de nos jours, il faut d’abord maîtriser un ou plusieurs langages informatiques avant de pouvoir développer le moindre logiciel, ce qui n’est pas forcément à la portée de tout le monde. Cependant, en faisant un peu d’anticipation, on peut imaginer que dans un premier temps, ces nouveaux services de génération de code seront assez rudimentaires et techniques, et vont donc être principalement utilisés par les développeurs professionnels dans le but d’améliorer leur productivité personnelle. Dans ce contexte, ces services de génération de code ne seront alors qu’un complément économique et ne changeront pas fondamentalement les pratiques d’ingénierie logicielle.
Toutefois, il y a fort à parier que ces services vont s’améliorer dans le temps (surtout en exploitant les codes sources et les nouvelles données qui seront générées par les développeurs utilisant ces services) au point de passer du statut de complément économique à celui de substitut économique, de la même façon que les machines à écrire dans les années 1970 se sont petit à petit substituées aux secrétaires de direction, ou bien que les pelleteuses excavatrices se sont substituées aux ouvriers travaillant avec des pelles et des pioches sur les chantiers.
Ce qui ne veut pas dire que le métier de développeur tel qu’on le conçoit aujourd’hui va totalement disparaître, mais simplement que la compétence de "pure programmation" sera moins centrale dans les projets informatiques, et probablement remplacée petit à petit par des profils hybrides maîtrisant parfaitement les pratiques de spécification fonctionnelle (permettant d’exprimer auprès d’un modèle linguistique ses besoins afin de lui permettre de générer le code correspondant) et maîtrisant également un certain nombre de connaissances de base dans l’intelligence artificielle, l’algorithmie et les structures de données. Si l’on prend un peu de recul, ce n’est pas si différent de la situation actuelle, où les développeurs utilisent des langages de programmation d’assez haut niveau (Python, Java, etc.) qui sont eux-mêmes interprétés et compilés en langage machine de bas niveau que presque aucun développeur ne maîtrise aujourd’hui, à part les rares spécialistes en la matière. En d’autres termes, les modèles linguistiques et services comme Codex ou Alphacode seront peut-être les compilateurs, plateformes ou systèmes d’exploitation de demain.
En ouvrant et en démocratisant ainsi la pratique de l’ingénierie logicielle, il est possible que l’on assiste donc à moyen terme à une « démonétisation » des compétences classiques de développement informatique, et donc à la création d’un nouvel écosystème, à la fois technique et surtout économique superposé aux modèles linguistiques, prochaine étape dans « l’algorithmisation » du monde.
Vers la disruption de la disruption numérique?
Bien qu’il soit aventureux de prédire avec certitude un futur hypothétique rendu possible par le perfectionnement continu des modèles linguistiques (et c’est justement ça qui les rend potentiellement disruptif), on peut tout de même raisonnablement penser que ces derniers seront un vecteur de croissance supplémentaire au service de l’économie numérique (ou bien de la numérisation de l’économie « traditionnelle »). Paradoxalement, dans ce nouveau monde, ce seront les « disrupteurs numériques » des secteurs traditionnels qui seront peut-être eux-même disruptés par ce nouveau bond technologique (et oui, nul n'est à l'abri de la logique schumpétérienne, pas même ceux qui la déclenchent!). Dans ce contexte, ce seront plausiblement les profils hybrides maîtrisant parfaitement leur domaine fonctionnel, les concepts fondamentaux de l’algorithmie mais aussi très performants dans la maîtrise de la langue et de l’expression écrite qui seront le nouvel archétype de l’ingénieur de demain.
Il est également intéressant de noter que l’architecture neuronale des modèles linguistiques est maintenant étendue pour construire des « modèles multimodaux », qui sont capables de traiter et de produire non seulement du texte, mais également de la vidéo, de l’audio ou bien encore des images (par exemple OpenAI CLIP, OpenAI Dal.E, Deepmind Perceiver IO, ConVIRT, Google MUM, etc.). Cette extension continue des capacités permettra sans aucun doute d’adresser de nouvelles opportunités et de nouveaux usages, si tant est que les risques associés à ces modèles seront pris en compte et maîtrisés.
Quels risques pour les modèles linguistiques et multimodaux ?
Comme toute technologie de rupture, l’IA en général et les modèles linguistiques et multimodaux en particulier, ne sont ni bons ou mauvais en soi. C’est d’abord l’usage qui est fait de ces technologies qui peut être néfaste, que ce soit de manière volontaire ou pas.
Comme nous l’avons vu dans la section précédente, les modèles linguistiques et multimodaux peuvent être très performants dans la génération de contenus qui paraissent « vrais ». Cet usage peut être notamment détourné pour générer des deepfakes. Cette technique consiste à reproduire de manière factice mais très réaliste, la voix ou la vidéo d’une personne et lui faire par exemple prononcer un discours qu’elle n’a en réalité jamais tenu. L’exemple le plus célèbre est celui de Barack Obama, parodié par le comédien Jordan Peele pour justement faire prendre conscience du danger que ce type de manipulation représente pour nos démocraties.
De la même manière, les modèles linguistiques en faisant significativement baisser le « coût marginal » de production d’une fausse nouvelle peuvent également être utilisés pour mener des campagnes de désinformation sur les réseaux sociaux et ainsi manipuler les foules. Heureusement, la détection de ces deepfakes et fausses nouvelles est possible (ironiquement, grâce à des modèles d’IA), mais nous sommes néanmoins dans la situation classique en cybersécurité où l’attaquant a toujours un temps d’avance sur le défenseur, et peut donc bénéficier d’un avantage asymétrique au moins pendant une certaine fenêtre temporelle pour commettre ses méfaits.
Un second risque majeur est celui du biaisement ou de la « toxicité » des jeux de données utilisés pour entraîner les modèles linguistiques et multimodaux (notamment vis-à-vis des stéréotypes et généralisations impliquant le genre, l’ethnie, la religion ou toute appartenance sociale). En effet, comme nous le verrons par la suite, très peu d’entreprises dans le monde sont susceptibles de produire ces modèles, ce qui signifie que la plupart des organisations dans le monde vont « consommer » les quelques modèles produits par ces entreprises, afin de créer leurs propres modèles dérivés via le processus d’apprentissage par transfert (voir la première section de cet article). Dans ce contexte, si l’un des modèles de base comprend un biais, il sera « cascadé » dans l’ensemble de ses modèles dérivés. C’est notamment ce risque qui a poussé la fondation OpenAI à être très précautionneuse dans la mise à disposition de son modèle GPT-3 auprès de ses clients. Bien que des travaux récents ont permis de « dé-biaiser » les jeux de données, il reste encore beaucoup à faire en la matière.
Le troisième risque majeur, d’ordre économique, est celui de la concentration du marché des modèles linguistiques et multimodaux sous forme de monopole ou d’oligopoles. En effet, leur développement nécessite à la fois beaucoup de puissance de calcul et de grosses quantités de données, mais aussi des capacités financières et des capacités humaines qui sont inaccessibles pour la plupart des organisations dans le monde, et laissent donc le champ libre à une poignée d’entreprises de la Big Tech. Cette situation de fait pose la question de l’efficience de ce marché qui semble par nature être trop déséquilibré en faveur des producteurs de ces modèles, mais également celle de la centralisation excessive des pouvoirs de décision (ce qui est en fait un problème commun aux plateformes au sein des secteur économiques peu régulés et à haute intensité capitalistique). Ce risque, semble être le plus difficile à adresser car il nécessiterait de réfléchir soit à un mécanisme de régulation qui permettrait d’empêcher cette situation de monopole ou d’oligopole tout en créant les conditions d’une concurrence équitable, soit à un mode de gouvernance inspiré de celui des « bien communs numériques », et qui protégerait donc ces modèles des stratégies de captation agressive de la part d’acteurs privés.
Conclusion
Nous avons pu voir tout au long de cet article que les modèles linguistiques (et leurs cousins multimodaux, un peu moins avancés aujourd’hui) grâce à quelques innovations techniques, représentent à minima un saut incrémental dans la capacité à automatiser des tâches, mêmes les plus ambiguës, complexes et créatives, que l’on croyait pourtant « à l’abri » de l’intelligence artificielle, au moins à court terme. Cette capacité représente à la fois un vecteur de croissance de la productivité économique, mais aussi un vecteur de déstabilisation des métiers à forte composante linguistique, comme par exemple (et de façon non-exhaustive) le notariat, les métiers du droit et à plus long terme le développement logiciel.
Cela dit, il paraît peu probable que même à moyen terme, ces modèles puissent significativement remplacer les développeurs de logiciels. En revanche, les développeurs utilisant ces modèles remplaceront ceux qui ne les utilisent pas. De manière plus générale, il y a fort à parier que les individus, les ingénieurs et les organisations de chaque secteur capables de maîtriser ces nouveaux outils et cette philosophie de « l’exo-darwinisme » disposeront d’un avantage concurrentiel sur les autres seront donc les « gagnants » de demain.
Enfin, ces opportunités sont aussi contrebalancées par des risques qui doivent impérativement être adressés. En effet, il ne faudrait pas que ces modèles puissent être utilisés pour déstabiliser nos démocraties ou amplifier des biais sociaux parfois trop présents dans nos sociétés. Enfin, il faudra également trouver le bon mode de gouvernance pour adresser le risque de concentration économique, car ce risque pourrait bien mener à terme à une nouvelle hégémonie de quelques-uns sur le reste du monde...
It's crystal clear.... as usual . Bravo Sébastien
Enabling organizations transformation 🚀
2 ansIlias Miraoui et Yanis Miraoui