OpenAI et l’émergence de l’écosystème ChatGPT

OpenAI et l’émergence de l’écosystème ChatGPT

Cet article est une traduction personnelle de mon article publié en anglais le 7 novembre 2023

Au début du mois, durant la keynote d’ouverture des OpenAI Dev Days, OpenAI a fait part de leurs avancements les plus significatifs à date, annexant au passage de nouveaux territoires à leur écosystème en constante expansion. Et face à l’accélération constante du secteur, il est compréhensible de se sentir désorienté et de s’interroger sur notre propre place en tant que professionnels de la tech.

Personnellement, je n’ai qu’une seule façon gérer ce ressenti, prendre du recul. J’analyse le chemin parcouru, clarifie le contexte actuel, et anticipe la trajectoire la plus probable. C'est donc ce que nous allons faire.

Hello ChatGPT

En novembre 2023, OpenAI dévoile ChatGPT au public. Il s’agit de leur premier produit B2C. En surentrainant GPT-3 pour s’adapter à un contexte conversationnel, et en le rendant accessible au public, ils ont surmonté le premier obstacle: susciter de l’intérêt pour l’IA au-delà des milieux académiques.

Bien qu’il ne s’agisse pas du premier modèle dédié au chat, il s’agit certainement du plus extensif jamais conçu. Mais la bascule opère réellement en mars 2023 avec l’arrivée de GPT-4. En améliorant considérablement les performances de ChatGPT, cette mise à jour a l’effet d’une trainée de poudre dans le monde de la tech. En l’espace de quelques mois, le centre d’intérêt bascule du discours omniprésent autour des cryptos à l’utilisation quotidienne de l’IA et ses promesses. [1]

Mais la frénésie des débuts s’estompe rapidement lorsque les utilisateurs, après quelques heures d’expérimentation, se trouvent confrontés aux limites de l’outil. Une mémoire restreinte, des données périmées, un manque de contexte, une propension à l’hallucination, la nécessité constante de copier-coller, et une “personnalité” standard trop lisse en font un système peu pratique pour gérer les scénarios complexes attendus.

Car naturellement, nombreux sont ceux qui perçoivent l’IA comme un substitut à la main d’œuvre. Cependant, comme la majorité des projets impliquent l’exécution de multiples tâches, un processus de réflexion, et de la planification, attendre le tout d’un unique modèle de chat est illusoire.

L’éveil des agents

Comme c’est fréquent dans la tech, la réponse a cette problématique n’est pas nouvelle, elle a simplement été remise au goût du jour. Marvin Minsky avait déjà abordé ce sujet précis dans “The Society of Mind”, publié pour la première fois en 1986. Il avait alors traité une grande partie de cette problématique, faisant référence à ce que nous appelons couramment courament des “agents”.

C’est dans cette lignée qu’en octobre 2022, une petite librairie qui allait rapidement devenir son propre écosystème sort sous le nom de Langchain. En fournissant un point d’entrée pour gérer la conversation et grâce à la capacité de faire appel à des agents contextuellement, les résultats s’avèrent bien plus convaincants.

Le principe de Langchain est pourtant simple, il s’agit de fournir à un modèle de langage un équivalent des pages jaunes. “Tu as besoin de chercher des résultats sur Google, fait appel à cet agent”, “Tu cherches un rédacteur pour corriger ton article, demande à celui-là”.

Et pour construire un agent, il y a deux éléments à prendre en compte :

  • Le “prompt système”, une série d’instructions visant à adapter le format des réponses aux exigences de la tâche et à en améliorer la constance, donnant naissance au passage au monde merveilleux des “experts” du “prompt engineering”
  • La possibilité d’adjoindre des outils, souvent développés, pour améliorer les capacités d’exécution. Il s’agit pour la plupart de scripts visant à récupérer de l’information extérieure pour ajouter du contexte et donc améliorer les résultats

Mais bien qu’ils puissent être interconnectés, les agents restent encore à ce moment-là de simples exécutants.

Artificial General Intelligence

Car en réalité, les pensées orientées vers la résolution de problèmes ne surgissent que rarement au cœur de l’action. Daniel Kahneman’s, dans son ouvrage "Thinking Fast And Slow" (2011), avait exploré cette idée en nous introduisant aux interactions entre la pensée rapide du Système 1 et la pensée plus réfléchie du Système 2. Quant aux agents, ils opèrent alors sous l'impulsion du Système 1 : prompt et instinctif. [2]

La réaction ne se fait alors pas fait attendre, cachée derrière l'appellation maladroite d'“AGI” [3], avec BabyAGI et AutoGPT en tant que projets phares de l'époque. En exploitant des agents configurés pour produire des chaines de réflexions, et donc en mesure de planifier, diviser, et répartir des tâches complexes en sous-unités plus gérables ; ils parviennent effectivement à imiter le traitement logique du Système 2. Ces agents planificateurs ne se contentent pas de déléguer des tâches, mais évaluent également les résultats des autres agents en exécution ou en planification — simulant ainsi une équipe d'experts.

Et ces systèmes continuent de gagner en popularité comme en témoigne le lancement de frameworks tels que Microsoft AutoGen, les 12 millions de dollars levés par AutoGPT, ou les innombrables projets cherchant à simuler le travail d'équipes.

Ainsi, même si ces systèmes "autonomes" produisent des résultats mitigés, ils fonctionnent selon des objectifs de plus en plus abstraits, présageant des capacités prometteuses à court terme.

Le B.A-BA de l’écosystème

Après un rappel de l'histoire récente et du contexte actuel, il est donc possible d’extrapoler et de dessiner les grandes lignes de ce en quoi consiste la construction d'un écosystème LLM. Une tâche sur laquelle tous les projets précédemment mentionnés se sont penchés brique par brique.

Comment créer un écosystème LLM en 12 étapes

  1. Un point d’accès unique pour toutes les interactions
  2. Exploiter un set d’agents exécutants
  3. Exploiter un set d’agents avec personnalité
  4. Faciliter une prise de contexte instantanée à partir de son, d'image, de texte, de fichiers
  5. Avoir un accès aux données personnelles telles que les e-mails, les discussions, les documents
  6. Sélectionner automatiquement l'agent approprié
  7. Créer des agents à la volée Des agents pouvant exécuter du code Des agents dont la personnalité est adaptée à la question
  8. Créer des chaines de raisonnement en temps réel pour gérer les actions en plusieurs étapes
  9. Affiner les modèles par utilisateurs
  10. Permettre le paiement de services tiers directement à travers la plateforme
  11. Sortir de l’interface textuelle par défaut [4]
  12. Automatiser la création de tâches récurrentes

Quel est le MOAT?

À cet égard, le site chat.openai.com d’OpenAI est certainement le produit le plus avancé. Un exploit incroyable compte tenu que l’entreprise opère à la fois un produit B2B et B2C, en plus de leurs, recherches autour des LLMs. Et avec les dernières annonces ils cochent dorénavant la quasi-totalité des points mentionnés précédemment.

  • Ils disposent de leur site et application comme points d’entrée
  • Ils ont sorti la V2 de leur “AppStore” avec les GPTs
  • Les GPTs introduisent de la personnalisation avancée auprès de tous
  • ChatGPT peut comprendre l'audio, voir des images, lire des documents
  • La réponse n'est pas limitée au texte, elle peut maintenant générer des images, de l'audio et d'autres fichiers
  • ChatGPT peut créer des agents exécutants sur-le-champ avec leur plugin "Advanced data analysis”
  • ChatGPT peut chercher en ligne avec le plugin “Online Search”
  • Ces plugins maisons sont sélectionnés en tant qu’agents automatiquement
  • Il y a eu une démo d’un GPT utilisant Zapier, facilitant d’innombrables connexions avec vos données personnelles
  • Ils ont toujours le modèle le plus performant du marché
  • Leur dernière version utilisée par les GPTs dispose d’un suivi de raisonnement et d’étapes plus poussé
  • Tout cela est disponible en produit SaaS via leur API

En résumé, ils sont à l'avant-garde du changement de paradigme, passant de l'application mobile/web traditionnelle à une expérience centralisée avec ChatGPT. Et, bien sûr, ils mutualisent chaque avancée à travers cela, de la collecte de données d'entraînement à la création d'assistants personnalisés. Nous leur donnons volontairement les outils nécessaires au maintien de leur position de leader.

De plus, en créant des couches d’abstractions à la collecte de contexte, au raisonnement, et à la sélection d’agents, ils rendent obsolètes de nombreuses startups qui fonctionnaient comme de simples surcouches à GPT-4. Et en simplifiant l’intégration de ces outils via leur API, ils éliminent les complexités précédemment gérées par les projets open-source désormais redondants

Mais, pour moi, le changement déterminant par rapport à la révolution du smartphone est que n'importe qui peut créer des GPTs. Les compétences de développeur sont un bonus, pas une exigence.

Que reste-t-il?

Si vous êtes un peux perdu face à toutes ces avancées, et que comme moi vous essayez de vous positionner dans des offres autour de l’intégration de l’IA, vous vous demandez certainement de qu’il vous reste.

Si vous n’arrivez pas à battre OpenAI à leur propre jeu, autant les rejoindre. Et à cet égard il y a plusieurs moyens de tirer son épingle du jeu :

  • Rejoignez la ruée vers l'or pour créer les GPTs les plus populaires
  • Exploitez toutes les données que vous avez déjà pour les créer
  • Créez des micro-APIs pour combler les lacunes qui ne sont pas encore couvertes par l'outil “Advanced Data Analysis” ou les agents existants
  • Devenez un expert dans la création de nouveaux agents/GPTs en tant que service
  • Apprenez à les intégrer dans des produits qui ne sont pas des chats pour améliorer vos parcours utilisateurs existants
  • Utilisez-le pour construire plus rapidement vous-même

La légère surcouche que vous avez construite ou que vous construisez autour de l'API de GPT ne suffit plus. La barrière à l'entrée est en train d'être pulvérisée en morceaux par OpenAI et vous ferriez tout aussi bien de rejoindre les assaillants.

Là où le travail l'intégration régnait autrefois, dans un monde où tout le monde peut créer de nouvelles expériences utilisateur, saisir rapidement les opportunités est la nouvelle clé du succès.





[1] Malheureusement, les "experts" du web3, sentant le vent tourner, se sont rapidement ralliés à la "révolution de l'IA", condamnant nos fils d'actualité sur les réseaux sociaux pour quelques mois.

[2] Demander à un LLM (Langage de Modèle de Grande Taille) de répondre à la manière de Daniel Kahneman et de présenter un raisonnement étape par étape avant la réponse finale a amélioré la qualité des réponses. Et grâce à l'exposition au raisonnement produit j'apprends plus vite de nouveaux concepts. J'utilise actuellement une version simplifiée de ce prompt dans GPT-4 dont les résultats me donnent le sentiment de collaborer avec un expert plutôt que de gérer un éxécutant.

[3] AGI signifie Artificial General Intelligence. Contrairement à l'IA actuelle, qui est conçue pour des tâches spécifiques, l'AGI possède les capacités cognitives pour comprendre, apprendre et appliquer des connaissances dans différents domaines, raisonner sur des problèmes et s'adapter à de nouvelles situations. En somme, toute la gamme de l'intelligence humaine ; ce qu'aucun de ces projets n'a démontré.

[4] Est-ce qu'un écran est vraiment la meilleure façon d'interagir avec un LLM ?

Identifiez-vous pour afficher ou ajouter un commentaire

Autres pages consultées

Explorer les sujets