Fonctionnement détaillé d'un LLM expliqué à ma fille.

Fonctionnement détaillé d'un LLM expliqué à ma fille.


1.       Prévoir le mot d’après 

Pour simplifier les choses à l’extrême, ce que fait un LLM c’est de trouver le mot qui complète logiquement un début de phrase. Pour trouver que le neuvième mot (on parle plutôt de « tokens » dans les modèles d’intelligence artificielle) de la phrase « Le fils unique de mon grand-père est mon  » doit être le mot « père ». Et le token suivant est « . », ce qui finit notre phrase.

Une façon de faire cela serait de prendre toutes les phrases de 8 mots figurant sur internet en français, et d’associer à chaque phrase possible le neuvième mot qui la complète – le plus probable serait la bonne réponse. Malheureusement, si on prend un vocabulaire de 100.000 tokens, on trouve au total  10000000000000000000000000000000000000000 façons de mettre 8 mots à la suite et le tableau qui indique le 9e mot nécessite plus que la mémoire cumulée de tous les ordinateurs petits ou gros et tous les smartphones jamais produits dans le monde.


2.       Réduire la taille du modèle 

Or un tel système est encore très loin de résoudre des problèmes complexes – pour cela il faudrait être capable de compléter des phrases beaucoup plus longues - les modèles d’intelligence artificielle grand public ont des « fenêtre de contexte » qui varient de plusieurs milliers à plusieurs millions de tokens. Il faut donc trouver une solution moins gourmande en mémoire.

Pour résoudre notre problème en utilisant un volume de mémoire plus raisonnable, l’idée est de remplacer notre table qui indique le mot suivant d’une phrase par un réseau de neurone : au lieu de partir d’une statistique exacte sur la façon dont les phrases sont construites, on va progressivement entraîner un modèle de grande taille, mais beaucoup plus petit que la table évoquée au point précédent, qui donnera une réponse satisfaisante dans un grand nombre de cas. Tout l’enjeu sera de construire ce modèle d’une façon qui représente un bon compromis entre sa taille et la pertinence de ses résultats.


3.       Recettes de cuisine 

Pour comprendre comment un réseau de neurone permet de résoudre notre problème, imaginez que l’on cherche à reproduire des recettes secrètes – par exemple celle de boissons tels que le Coca-Cola ou la limonade. Deux méthodes sont possibles :

-   dans la première, on prendrait la liste de toutes les molécules existant dans la nature (la Royal Society of Chemistry en recense plus de 100 millions) et on cherche à déterminer la quantité précise de chacune de ces molécules. Cette méthode correspond à l’utilisation d’une table géante comme celle évoquée ci-dessus ;

-   dans la seconde, on partirait d’un cocktail qui semble un point de départ raisonnable (un mélange de l’eau, du sucre, de l’acide citrique, du caramel), on gouterait le résultat puis la boisson que l’on cherche à reproduire (par exemple du Coca-Cola) et on ajusterait le dosage jusqu’à arriver à un résultat satisfaisant : c’est l’apprentissage.

 

La seconde méthode schématise ce que fera un réseau de neurone. Toute la difficulté consistera à avoir la bonne base d’apprentissage (les boissons que l’on comparera à notre mélange) et les bonnes technique d’apprentissage (de combien faut-il réduire la part de sucre en fonction du caractère « trop sucré » de notre mélange).

 

4.       Sophistication du modèle 

ChatGPT utilise donc un réseau de neurone pour « prévoir le mot » d’après, construit à partir de l’entrainement sur un grand nombre de texte. Il va y ajouter un peu d’aléa (il va tirer au sort les mots parmi les plus probables), dans une proportion qui dépendra de l’application (plus pour générer un texte créatif, moins dans d’autres cas) – c’est le paramètre de « température » que certains modèles permettent de faire varier.

Un réseau de neurone donne de bons résultats pour reconnaitre des motifs similaires – c’est pour cela qu’ils sont notamment utilisés pour reconnaitre des images par exemple. Mais pour que notre système donne de bons résultats, il ne suffit pas d’associer un nombre à chaque mot, il faut aussi déterminer les mots qui portent le sens de la phrase, et préciser la signification des mots utilisés. Par exemple, le mot « car » peut aussi bien désigner un autobus ou exprimer une causalité – par exemple « écris moi un mot d’excuse car j’ai raté mon avion. ». Cette analyse est nécessaire pour obtenir des bons résultats car le bon « mot suivant » dépendra du sens de la phrase.

Pour cela, il faut un système qui permette de « porter l’attention » de notre système sur les mots les plus pertinents d’une phrase : c’est ce que fait le mécanisme d’attention. Il aide le modèle à se concentrer sur les informations essentielles et à ignorer ce qui est moins important. Pour cela, on utilise un autre réseau de neurones pour « encoder » les mots (pour mieux cerner leur signification dans le contexte de la phrase utilisée) et pour identifier les parties de la phrase dont le sens est le plus important.

 

5.       Impressionnant mais pas miraculeux

Les résultats des modèles de type LLM sont impressionnants sur certaines tâches comme la rédaction d’offres d’emploi à partir de quelques mots clefs, la traduction de textes ou la résolution des problèmes de mathématiques. Ils donnent l’impression d’une « boite noire » capable de penser. Mais en réalité, les LLM ne comprennent pas le texte de la même manière que les humains : ils génèrent des réponses basées sur des probabilités et des modèles de langage sans véritable compréhension sémantique ou contextuelle. Ils peuvent  produire des réponses qui semblent plausibles mais qui sont incorrectes, parfois de façon évidente pour une personne normale.  . Ces « hallucination » sont une conséquence de la méthode consistant tirer de façon aléatoire les mots les plus probables.

 

Il existe donc des nombreux types de raisonnement qu’une personne normale fera facilement mais dont un LLM est incapable : 

  • utiliser l'expérience personnelle et de ses émotions : chacun utilise ses expériences passées pour prendre des décisions. Cette capacité permet de faire des jugements nuancés basés sur des situations vécues, des émotions ressenties, et des leçons apprises au fil du temps. Un LLM n'a pas de mémoire personnelle et ne peut pas tirer parti d'expériences vécues ;
  • morale et éthique : Les humains peuvent évaluer des situations complexes en considérant les implications morales et éthiques. Cela implique souvent une introspection profonde, des valeurs personnelles et des jugements sur ce qui est bien ou mal. Les LLM ne possèdent pas de système de valeurs interne et ne peuvent pas faire des jugements moraux autonomes ;
  • raisonnement intuitif : nous faisons souvent des jugements rapides basés sur des intuitions ou des pressentiments, qui peuvent être le résultat de nombreuses années d'expérience implicite et de reconnaissance de modèles. Les LLM, en revanche, s'appuient strictement sur les données et les statistiques sans véritable intuition ;
  • créativité et raisonnement original : nous avons la capacité de créer de nouvelles idées ou concepts – soit seul, soit en construisant sur les innovations des autres. Un LLM n’aurait pas pu construire la théorie de quantique à partir de statistiques sur les textes de physique classique ;
  • raisonnement pratique et manuel : nous savons résoudre des problèmes pratiques nécessitant des compétences manuelles et une compréhension physique du monde. Par exemple, réparer une machine. Les LLM n'ont pas de capacité physique et ne peuvent pas interagir directement avec le monde matériel.

 

6.       Menace pour l’humanité et pour l’emploi : "hype" ou réalité ? 

Enfin, du fait même de la façon dont ils sont construits, il est strictement impossible que les LLM prennent le contrôle du monde ou menacent l’humanité – ils sont fait pour construire des phrases réalistes, pas pour penser ou contrôler des systèmes informatiques. Certes ils vont progresser, mais avec des limites - celles de la loi de Moore (qui n'a probablement plus que 10 à 20 ans à vivre) ou celles des données disponibles pour l'entrainement (cf graphe ci-après).


Source :

 

Quant à l’affirmation des cabinets de conseils ou de certains gourous sur la capacité de ces modèles à nous remplacer, les études plus sérieuses comme celles Daron Acemoglu du MIT (The Simple Macroeconomics of AI | NBER) estiment l’impact à 1% de productivité sur 10 ans. C’est important – cela représente 30 milliards de richesse en plus chaque année pour la France – mais on reste très largement dans les niveaux de productivité que l’on sait absorber sans générer le chômage de masse promis par certains. Il faut par ailleurs garder en tête la "courbe du hype" à laquelle est soumise toute technologie majeure : il arrive un point auquel les promesses annoncées sont totalement déraisonnables. Selon Gartner, l'IA générative a atteint ce point.

La "hype curve" de Gartner


Pour en savoir plus:

-What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram

-Attention Is All You Need (arxiv.org)

-Will we run out of data? Limits of LLM scaling based on human-generated data (arxiv.org)

Vincent Champain est dirigeant d’entreprise de haute technologie et président de l’Observatoire du Long Terme (www.longterme.org), think tank dédié aux enjeux de long terme.

Un grand merci, Vincent ChampAIn, pour avoir partagé votre précieux témoignage . Pas toujours facile d'expliquer les principes de fonctionnement des LLMs derrière cette façade quelque peu magique. Je partage en retour cet excellent article du FT qui constitue aussi une très bonne explication du sujet: https://ig.ft.com/generative-ai/.

Guillaume Torresan

Directeur Immobilier et Environnement de Travail

6 mois

Particulièrement clair ! Merci Vincent de ce partage !

Chrystelle Chavagnon

Senior Executive Search consultant for the industrial sector

6 mois

Modeste Candide !

Chrystelle Chavagnon

Senior Executive Search consultant for the industrial sector

6 mois

Limpide

Vincent Champain

Digital Business Manager & Developer. SEVP Digital Performance & IT#Digital Performance #Datascience #AI #Business development #Cybersecurity #Growth strategies

6 mois

Identifiez-vous pour afficher ou ajouter un commentaire

Autres pages consultées

Explorer les sujets