OpenAI et l’émergence de l’écosystème ChatGPT
Cet article est une traduction personnelle de mon article publié en anglais le 7 novembre 2023
Au début du mois, durant la keynote d’ouverture des OpenAI Dev Days, OpenAI a fait part de leurs avancements les plus significatifs à date, annexant au passage de nouveaux territoires à leur écosystème en constante expansion. Et face à l’accélération constante du secteur, il est compréhensible de se sentir désorienté et de s’interroger sur notre propre place en tant que professionnels de la tech.
Personnellement, je n’ai qu’une seule façon gérer ce ressenti, prendre du recul. J’analyse le chemin parcouru, clarifie le contexte actuel, et anticipe la trajectoire la plus probable. C'est donc ce que nous allons faire.
Hello ChatGPT
En novembre 2023, OpenAI dévoile ChatGPT au public. Il s’agit de leur premier produit B2C. En surentrainant GPT-3 pour s’adapter à un contexte conversationnel, et en le rendant accessible au public, ils ont surmonté le premier obstacle: susciter de l’intérêt pour l’IA au-delà des milieux académiques.
Bien qu’il ne s’agisse pas du premier modèle dédié au chat, il s’agit certainement du plus extensif jamais conçu. Mais la bascule opère réellement en mars 2023 avec l’arrivée de GPT-4. En améliorant considérablement les performances de ChatGPT, cette mise à jour a l’effet d’une trainée de poudre dans le monde de la tech. En l’espace de quelques mois, le centre d’intérêt bascule du discours omniprésent autour des cryptos à l’utilisation quotidienne de l’IA et ses promesses. [1]
Mais la frénésie des débuts s’estompe rapidement lorsque les utilisateurs, après quelques heures d’expérimentation, se trouvent confrontés aux limites de l’outil. Une mémoire restreinte, des données périmées, un manque de contexte, une propension à l’hallucination, la nécessité constante de copier-coller, et une “personnalité” standard trop lisse en font un système peu pratique pour gérer les scénarios complexes attendus.
Car naturellement, nombreux sont ceux qui perçoivent l’IA comme un substitut à la main d’œuvre. Cependant, comme la majorité des projets impliquent l’exécution de multiples tâches, un processus de réflexion, et de la planification, attendre le tout d’un unique modèle de chat est illusoire.
L’éveil des agents
Comme c’est fréquent dans la tech, la réponse a cette problématique n’est pas nouvelle, elle a simplement été remise au goût du jour. Marvin Minsky avait déjà abordé ce sujet précis dans “The Society of Mind”, publié pour la première fois en 1986. Il avait alors traité une grande partie de cette problématique, faisant référence à ce que nous appelons couramment courament des “agents”.
C’est dans cette lignée qu’en octobre 2022, une petite librairie qui allait rapidement devenir son propre écosystème sort sous le nom de Langchain. En fournissant un point d’entrée pour gérer la conversation et grâce à la capacité de faire appel à des agents contextuellement, les résultats s’avèrent bien plus convaincants.
Le principe de Langchain est pourtant simple, il s’agit de fournir à un modèle de langage un équivalent des pages jaunes. “Tu as besoin de chercher des résultats sur Google, fait appel à cet agent”, “Tu cherches un rédacteur pour corriger ton article, demande à celui-là”.
Et pour construire un agent, il y a deux éléments à prendre en compte :
Mais bien qu’ils puissent être interconnectés, les agents restent encore à ce moment-là de simples exécutants.
Artificial General Intelligence
Car en réalité, les pensées orientées vers la résolution de problèmes ne surgissent que rarement au cœur de l’action. Daniel Kahneman’s, dans son ouvrage "Thinking Fast And Slow" (2011), avait exploré cette idée en nous introduisant aux interactions entre la pensée rapide du Système 1 et la pensée plus réfléchie du Système 2. Quant aux agents, ils opèrent alors sous l'impulsion du Système 1 : prompt et instinctif. [2]
La réaction ne se fait alors pas fait attendre, cachée derrière l'appellation maladroite d'“AGI” [3], avec BabyAGI et AutoGPT en tant que projets phares de l'époque. En exploitant des agents configurés pour produire des chaines de réflexions, et donc en mesure de planifier, diviser, et répartir des tâches complexes en sous-unités plus gérables ; ils parviennent effectivement à imiter le traitement logique du Système 2. Ces agents planificateurs ne se contentent pas de déléguer des tâches, mais évaluent également les résultats des autres agents en exécution ou en planification — simulant ainsi une équipe d'experts.
Et ces systèmes continuent de gagner en popularité comme en témoigne le lancement de frameworks tels que Microsoft AutoGen, les 12 millions de dollars levés par AutoGPT, ou les innombrables projets cherchant à simuler le travail d'équipes.
Ainsi, même si ces systèmes "autonomes" produisent des résultats mitigés, ils fonctionnent selon des objectifs de plus en plus abstraits, présageant des capacités prometteuses à court terme.
Le B.A-BA de l’écosystème
Après un rappel de l'histoire récente et du contexte actuel, il est donc possible d’extrapoler et de dessiner les grandes lignes de ce en quoi consiste la construction d'un écosystème LLM. Une tâche sur laquelle tous les projets précédemment mentionnés se sont penchés brique par brique.
Recommandé par LinkedIn
Comment créer un écosystème LLM en 12 étapes
Quel est le MOAT?
À cet égard, le site chat.openai.com d’OpenAI est certainement le produit le plus avancé. Un exploit incroyable compte tenu que l’entreprise opère à la fois un produit B2B et B2C, en plus de leurs, recherches autour des LLMs. Et avec les dernières annonces ils cochent dorénavant la quasi-totalité des points mentionnés précédemment.
En résumé, ils sont à l'avant-garde du changement de paradigme, passant de l'application mobile/web traditionnelle à une expérience centralisée avec ChatGPT. Et, bien sûr, ils mutualisent chaque avancée à travers cela, de la collecte de données d'entraînement à la création d'assistants personnalisés. Nous leur donnons volontairement les outils nécessaires au maintien de leur position de leader.
De plus, en créant des couches d’abstractions à la collecte de contexte, au raisonnement, et à la sélection d’agents, ils rendent obsolètes de nombreuses startups qui fonctionnaient comme de simples surcouches à GPT-4. Et en simplifiant l’intégration de ces outils via leur API, ils éliminent les complexités précédemment gérées par les projets open-source désormais redondants
Mais, pour moi, le changement déterminant par rapport à la révolution du smartphone est que n'importe qui peut créer des GPTs. Les compétences de développeur sont un bonus, pas une exigence.
Que reste-t-il?
Si vous êtes un peux perdu face à toutes ces avancées, et que comme moi vous essayez de vous positionner dans des offres autour de l’intégration de l’IA, vous vous demandez certainement de qu’il vous reste.
Si vous n’arrivez pas à battre OpenAI à leur propre jeu, autant les rejoindre. Et à cet égard il y a plusieurs moyens de tirer son épingle du jeu :
La légère surcouche que vous avez construite ou que vous construisez autour de l'API de GPT ne suffit plus. La barrière à l'entrée est en train d'être pulvérisée en morceaux par OpenAI et vous ferriez tout aussi bien de rejoindre les assaillants.
Là où le travail l'intégration régnait autrefois, dans un monde où tout le monde peut créer de nouvelles expériences utilisateur, saisir rapidement les opportunités est la nouvelle clé du succès.
[1] Malheureusement, les "experts" du web3, sentant le vent tourner, se sont rapidement ralliés à la "révolution de l'IA", condamnant nos fils d'actualité sur les réseaux sociaux pour quelques mois.
[2] Demander à un LLM (Langage de Modèle de Grande Taille) de répondre à la manière de Daniel Kahneman et de présenter un raisonnement étape par étape avant la réponse finale a amélioré la qualité des réponses. Et grâce à l'exposition au raisonnement produit j'apprends plus vite de nouveaux concepts. J'utilise actuellement une version simplifiée de ce prompt dans GPT-4 dont les résultats me donnent le sentiment de collaborer avec un expert plutôt que de gérer un éxécutant.
[3] AGI signifie Artificial General Intelligence. Contrairement à l'IA actuelle, qui est conçue pour des tâches spécifiques, l'AGI possède les capacités cognitives pour comprendre, apprendre et appliquer des connaissances dans différents domaines, raisonner sur des problèmes et s'adapter à de nouvelles situations. En somme, toute la gamme de l'intelligence humaine ; ce qu'aucun de ces projets n'a démontré.
[4] Est-ce qu'un écran est vraiment la meilleure façon d'interagir avec un LLM ?