Fonctionnement détaillé d'un LLM expliqué à ma fille.
1. Prévoir le mot d’après
Pour simplifier les choses à l’extrême, ce que fait un LLM c’est de trouver le mot qui complète logiquement un début de phrase. Pour trouver que le neuvième mot (on parle plutôt de « tokens » dans les modèles d’intelligence artificielle) de la phrase « Le fils unique de mon grand-père est mon » doit être le mot « père ». Et le token suivant est « . », ce qui finit notre phrase.
Une façon de faire cela serait de prendre toutes les phrases de 8 mots figurant sur internet en français, et d’associer à chaque phrase possible le neuvième mot qui la complète – le plus probable serait la bonne réponse. Malheureusement, si on prend un vocabulaire de 100.000 tokens, on trouve au total 10000000000000000000000000000000000000000 façons de mettre 8 mots à la suite et le tableau qui indique le 9e mot nécessite plus que la mémoire cumulée de tous les ordinateurs petits ou gros et tous les smartphones jamais produits dans le monde.
2. Réduire la taille du modèle
Or un tel système est encore très loin de résoudre des problèmes complexes – pour cela il faudrait être capable de compléter des phrases beaucoup plus longues - les modèles d’intelligence artificielle grand public ont des « fenêtre de contexte » qui varient de plusieurs milliers à plusieurs millions de tokens. Il faut donc trouver une solution moins gourmande en mémoire.
Pour résoudre notre problème en utilisant un volume de mémoire plus raisonnable, l’idée est de remplacer notre table qui indique le mot suivant d’une phrase par un réseau de neurone : au lieu de partir d’une statistique exacte sur la façon dont les phrases sont construites, on va progressivement entraîner un modèle de grande taille, mais beaucoup plus petit que la table évoquée au point précédent, qui donnera une réponse satisfaisante dans un grand nombre de cas. Tout l’enjeu sera de construire ce modèle d’une façon qui représente un bon compromis entre sa taille et la pertinence de ses résultats.
3. Recettes de cuisine
Pour comprendre comment un réseau de neurone permet de résoudre notre problème, imaginez que l’on cherche à reproduire des recettes secrètes – par exemple celle de boissons tels que le Coca-Cola ou la limonade. Deux méthodes sont possibles :
- dans la première, on prendrait la liste de toutes les molécules existant dans la nature (la Royal Society of Chemistry en recense plus de 100 millions) et on cherche à déterminer la quantité précise de chacune de ces molécules. Cette méthode correspond à l’utilisation d’une table géante comme celle évoquée ci-dessus ;
- dans la seconde, on partirait d’un cocktail qui semble un point de départ raisonnable (un mélange de l’eau, du sucre, de l’acide citrique, du caramel), on gouterait le résultat puis la boisson que l’on cherche à reproduire (par exemple du Coca-Cola) et on ajusterait le dosage jusqu’à arriver à un résultat satisfaisant : c’est l’apprentissage.
La seconde méthode schématise ce que fera un réseau de neurone. Toute la difficulté consistera à avoir la bonne base d’apprentissage (les boissons que l’on comparera à notre mélange) et les bonnes technique d’apprentissage (de combien faut-il réduire la part de sucre en fonction du caractère « trop sucré » de notre mélange).
4. Sophistication du modèle
ChatGPT utilise donc un réseau de neurone pour « prévoir le mot » d’après, construit à partir de l’entrainement sur un grand nombre de texte. Il va y ajouter un peu d’aléa (il va tirer au sort les mots parmi les plus probables), dans une proportion qui dépendra de l’application (plus pour générer un texte créatif, moins dans d’autres cas) – c’est le paramètre de « température » que certains modèles permettent de faire varier.
Un réseau de neurone donne de bons résultats pour reconnaitre des motifs similaires – c’est pour cela qu’ils sont notamment utilisés pour reconnaitre des images par exemple. Mais pour que notre système donne de bons résultats, il ne suffit pas d’associer un nombre à chaque mot, il faut aussi déterminer les mots qui portent le sens de la phrase, et préciser la signification des mots utilisés. Par exemple, le mot « car » peut aussi bien désigner un autobus ou exprimer une causalité – par exemple « écris moi un mot d’excuse car j’ai raté mon avion. ». Cette analyse est nécessaire pour obtenir des bons résultats car le bon « mot suivant » dépendra du sens de la phrase.
Pour cela, il faut un système qui permette de « porter l’attention » de notre système sur les mots les plus pertinents d’une phrase : c’est ce que fait le mécanisme d’attention. Il aide le modèle à se concentrer sur les informations essentielles et à ignorer ce qui est moins important. Pour cela, on utilise un autre réseau de neurones pour « encoder » les mots (pour mieux cerner leur signification dans le contexte de la phrase utilisée) et pour identifier les parties de la phrase dont le sens est le plus important.
Recommandé par LinkedIn
5. Impressionnant mais pas miraculeux
Les résultats des modèles de type LLM sont impressionnants sur certaines tâches comme la rédaction d’offres d’emploi à partir de quelques mots clefs, la traduction de textes ou la résolution des problèmes de mathématiques. Ils donnent l’impression d’une « boite noire » capable de penser. Mais en réalité, les LLM ne comprennent pas le texte de la même manière que les humains : ils génèrent des réponses basées sur des probabilités et des modèles de langage sans véritable compréhension sémantique ou contextuelle. Ils peuvent produire des réponses qui semblent plausibles mais qui sont incorrectes, parfois de façon évidente pour une personne normale. . Ces « hallucination » sont une conséquence de la méthode consistant tirer de façon aléatoire les mots les plus probables.
Il existe donc des nombreux types de raisonnement qu’une personne normale fera facilement mais dont un LLM est incapable :
6. Menace pour l’humanité et pour l’emploi : "hype" ou réalité ?
Enfin, du fait même de la façon dont ils sont construits, il est strictement impossible que les LLM prennent le contrôle du monde ou menacent l’humanité – ils sont fait pour construire des phrases réalistes, pas pour penser ou contrôler des systèmes informatiques. Certes ils vont progresser, mais avec des limites - celles de la loi de Moore (qui n'a probablement plus que 10 à 20 ans à vivre) ou celles des données disponibles pour l'entrainement (cf graphe ci-après).
Quant à l’affirmation des cabinets de conseils ou de certains gourous sur la capacité de ces modèles à nous remplacer, les études plus sérieuses comme celles Daron Acemoglu du MIT (The Simple Macroeconomics of AI | NBER) estiment l’impact à 1% de productivité sur 10 ans. C’est important – cela représente 30 milliards de richesse en plus chaque année pour la France – mais on reste très largement dans les niveaux de productivité que l’on sait absorber sans générer le chômage de masse promis par certains. Il faut par ailleurs garder en tête la "courbe du hype" à laquelle est soumise toute technologie majeure : il arrive un point auquel les promesses annoncées sont totalement déraisonnables. Selon Gartner, l'IA générative a atteint ce point.
Pour en savoir plus:
Vincent Champain est dirigeant d’entreprise de haute technologie et président de l’Observatoire du Long Terme (www.longterme.org), think tank dédié aux enjeux de long terme.
Un grand merci, Vincent ChampAIn, pour avoir partagé votre précieux témoignage . Pas toujours facile d'expliquer les principes de fonctionnement des LLMs derrière cette façade quelque peu magique. Je partage en retour cet excellent article du FT qui constitue aussi une très bonne explication du sujet: https://ig.ft.com/generative-ai/.
Directeur Immobilier et Environnement de Travail
6 moisParticulièrement clair ! Merci Vincent de ce partage !
Senior Executive Search consultant for the industrial sector
6 moisModeste Candide !
Senior Executive Search consultant for the industrial sector
6 moisLimpide
Digital Business Manager & Developer. SEVP Digital Performance & IT#Digital Performance #Datascience #AI #Business development #Cybersecurity #Growth strategies
6 moisGrégoire Kiss Cyril Moynot Aurélie Damour Gartner hype inside