Comment l'IA générative rend les robots plus intelligents, plus capables et plus prêts pour le grand public.

Comment l'IA générative rend les robots plus intelligents, plus capables et plus prêts pour le grand public.


Au cours des derniers mois, le domaine de la robotique a connu des avancées remarquables, largement propulsées par la progression rapide de l'intelligence artificielle générative. Les grandes entreprises technologiques et les laboratoires de recherche utilisent des modèles d'IA générative pour relever certains des grands défis de la robotique qui les ont empêchés d'être largement déployés en dehors de l'industrie lourde et des laboratoires de recherche.

Combler l'écart entre la simulation et la réalité

La formation de modèles d'apprentissage automatique pour robots dans des scénarios du monde réel présente de nombreux défis. Le processus est lent, se déroulant au rythme des événements en temps réel. Il est également coûteux, limité par le nombre de robots qui peuvent être déployés physiquement. De plus, des préoccupations de sécurité et un accès limité à des environnements diversifiés pour une formation complète posent des obstacles supplémentaires.

Pour contourner ces obstacles, les chercheurs utilisent des environnements simulés pour la formation de modèles robotiques. Cette approche permet la mise à l'échelle et réduit considérablement les coûts par rapport à la formation en monde réel. Cependant, cette solution n'est pas sans inconvénients.

La création d'environnements simulés détaillés peut être coûteuse. De plus, ces environnements manquent souvent de détails complexes que l'on trouve dans le monde réel, ce qui crée un écart connu sous le nom de "sim-to-real gap". Cet écart se traduit par une baisse des performances lorsque les modèles formés en simulation sont déployés dans le monde réel, car ils ne peuvent pas gérer les complexités et les nuances de leur environnement.

Récemment, les modèles génératifs sont devenus des outils importants pour combler l'écart entre la simulation et la réalité et pour rendre les environnements simulés plus réalistes et détaillés.

Par exemple, les modèles de champs de radiance neurale (NeRF) sont des modèles génératifs qui peuvent créer des objets 3D à partir de scènes 2D. Les NeRF simplifient considérablement la création d'environnements simulés pour la formation des robots.

Nvidia exploite des modèles génératifs tels que les NeRF pour son moteur de reconstruction neurale. Ce système d'IA crée des environnements 3D réalistes à partir de vidéos enregistrées par des caméras installées sur des voitures, qui peuvent être utilisées pour former des modèles de véhicules autonomes.

SyncDreamer, un modèle développé par des chercheurs de diverses universités, génère plusieurs vues d'un objet à partir d'une seule image 2D. Ces vues peuvent ensuite être alimentées à un autre modèle génératif pour créer un modèle 3D pour des environnements simulés.

Et le modèle UniSim de DeepMind utilise des LLM et des modèles de diffusion pour générer des séquences vidéo photoréalistes. Ces séquences peuvent être utilisées pour créer des simulations détaillées pour la formation de modèles robotiques.

Combler l'écart entre les robots et les humains

Un autre obstacle significatif dans la recherche en robotique est d'améliorer l'interaction entre les humains et les robots. Cela implique d'améliorer la capacité des robots à comprendre les commandes humaines et à collaborer efficacement.

Les avancées dans les modèles génératifs multimodaux contribuent à résoudre ce problème. Ces modèles intègrent le langage naturel avec d'autres types de données, tels que des images et des vidéos, pour faciliter une communication plus efficace avec les robots.

Un exemple de cela est le modèle de langage incarné de Google, PaLM-E. Ce modèle combine des modèles de langage et des transformateurs de vision, qui sont formés conjointement pour comprendre les corrélations entre les images et le texte.

Le modèle applique ensuite ces connaissances pour analyser des scènes visuelles et traduire les instructions en langage naturel en actions robotiques. Des modèles comme PaLM-E ont considérablement amélioré la capacité des robots à exécuter des commandes complexes.

S'appuyant sur ce concept, l'été dernier, Google a introduit RT-2, un modèle vision-langage-action. Entraîné sur un vaste corpus de données web, RT-2 peut exécuter des instructions en langage naturel, même pour des tâches pour lesquelles il n'a pas été explicitement formé.

Combler l'écart entre les robots et les ensembles de données

Le monde de la recherche en robotique regorge de modèles et d'ensembles de données collectés à partir de robots du monde réel. Cependant, ces ensembles de données sont souvent disparates, collectés à partir de divers robots, dans différents formats et pour des tâches diverses.

Récemment, certains groupes de recherche ont changé leur focus pour consolider les connaissances incorporées dans ces ensembles de données afin de créer des modèles plus polyvalents.

Un exemple notable est RT-X, un projet collaboratif entre DeepMind et 33 autres institutions de recherche. L'objectif ambitieux du projet est de développer un système d'IA polyvalent capable de travailler avec différents types de robots physiques et d'effectuer une grande variété de tâches.

Le projet s'est inspiré du travail sur les grands modèles de langage, qui montre que la formation de ces modèles sur des ensembles de données très larges peut leur permettre d'accomplir des tâches qui étaient auparavant hors de leur portée. Les chercheurs ont rassemblé des ensembles de données provenant de 22 incarnations de robots et de 20 institutions dans différents pays. Cet ensemble de données consolidé englobait 500 compétences et 150 000 tâches. Les chercheurs ont ensuite formé une série de modèles sur cet ensemble de données unifié. De manière remarquable, les modèles résultants ont démontré la capacité de généralisation à de nombreuses incarnations et tâches, y compris certaines pour lesquelles ils n'avaient pas été explicitement formés.

Créer de meilleurs modèles de récompense

Les modèles génératifs ont trouvé une application significative dans la rédaction de code, et curieusement, ils peuvent également générer du code pour la formation de robots. Le

dernier modèle de Nvidia, Eureka, utilise l'IA générative pour concevoir des modèles de récompense, un composant notoirement difficile des systèmes d'apprentissage par renforcement utilisés dans la formation de robots.

Eureka utilise GPT-4 pour écrire du code pour les modèles de récompense, éliminant ainsi le besoin de demandes spécifiques à la tâche ou de modèles de récompense prédéfinis. Il exploite des environnements de simulation et des GPU pour évaluer rapidement la qualité de grands lots de candidats à la récompense, simplifiant ainsi le processus de formation. Eureka utilise également GPT-4 pour analyser et améliorer le code qu'il génère. De plus, il peut intégrer les commentaires humains pour affiner le modèle de récompense et l'aligner plus étroitement sur les objectifs du développeur.

Les modèles génératifs, qui ont commencé avec des objectifs simples, tels que la génération d'images ou de texte, sont désormais utilisés dans des tâches de plus en plus complexes au-delà de leur vision originale. À mesure que l'IA générative devient une part de plus en plus importante de la robotique, nous pouvons nous attendre à des innovations à un rythme plus rapide, rapprochant les robots de leur déploiement à nos côtés dans notre vie quotidienne.


Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Gregory Maignan

Autres pages consultées

Explorer les sujets