Capacidades Clave en la evolución de la  Autonomía de agentes IA: The Anatomy of Autonomy

Capacidades Clave en la evolución de la Autonomía de agentes IA: The Anatomy of Autonomy

Tal como se ha observado al estudiar las relaciones de conocimientos en las redes neuronales naturales, cada convolución que añade arrugas al cerebro nos hace un poco más inteligentes. De manera similar, la Inteligencia Artificial (IA) avanza mediante "convoluciones", y en retrospectiva, nuestro camino hasta el presente parece obvio. Me gustaría esbozarlo:


Modelos Fundacionales (Foundation Models):

Todo comienza con la evolución y disponibilidad generalizada de enormes Modelos de Lenguaje de Aprendizaje Profundo (LLMs) mediante APIs o código abierto. El tamaño colosal de estos modelos permite tres características principales:

Esto lleva al surgimiento de los primeros ingenieros de 'prompts', como Gwern Branwen y Riley Goodside, quienes exploraron creativas indicaciones en una sola interacción.

Capacidad 1: Metacognición (mejora autónoma del razonamiento puro)

  • Kojima y colaboradores (2022) descubrieron que agregar “pensemos paso a paso” a un 'prompt' aumentaba significativamente el rendimiento de GPT-3 en pruebas de referencia. Esto fue debido a la externalización de la memoria de trabajo para tareas más complicadas.
  • Wei y otros (2022) formalizaron la técnica de 'prompts' en Cadena de Pensamiento, que mejoró aún más el rendimiento.
  • Wang y colaboradores (2022) encontraron que la votación mayoritaria de múltiples Cadenas de Pensamiento era efectiva donde la técnica regular no lo era.

Aparecen más y más técnicas como Calibrar Antes de Usar, Auto-Interrogarse, Árbol de pensamientos, Ingeniería Automática de Prompts, entre otras.

Capacidad 2: Memoria Externa (lectura de datos externos mayormente estáticos)

No hay texto alternativo para esta imagen
Vector DB


La capacidad de aprendizaje en contexto/pocas interacciones podría utilizarse para actualizar un modelo fundacional más allá de su fecha de corte de conocimiento y enfocarse en datos específicos de un dominio o privados.

Las restricciones de longitud de contexto llevan a la necesidad de incrustar, dividir y encadenar marcos de trabajo como LangChain, y bases de datos vectoriales como Pinecone (valorada en $700 millones), Weaviate ($200 millones) y Chroma ($75 millones).

Otra manera de utilizar el lenguaje natural para acceder y responder preguntas de bases de datos relacionales son las compañías de Texto a SQL, que incluyen Perplexity AI ($26 millones en Serie A), Seek AI ($7.5 millones en ronda semilla), y otros enfoques como CensusGPT y OSS Insight.

Capacidad 3: Automatización de Navegadores (lectura y escritura en un navegador aislado)

Sharif Shameem fue uno de los primeros en demostrar cómo GPT-3 podía automatizar Chrome para comprar Airpods en 2021.

  • Adept realizó una ronda de financiación Serie A con un equipo estelar de autores especializados en Transformers y lanzó el ACT-1 Action Transformer (ahora con una considerable Serie B de $350 millones, a pesar de la salida de Vaswani y otros).
  • Nat Friedman con su NatBot trajo de vuelta la automatización de navegadores al foco público un año después, demostrando cómo un agente puede realizar una reserva en un restaurante a través de búsqueda en Google y mapas a partir de una sola instrucción en lenguaje natural.
  • Dust XP1 también fue lanzado, pero solo tenía capacidad de lectura, no realizaba ninguna automatización. MULTI·ON fue un paso más allá y ahora también está disponible en la tienda de plugins de ChatGPT.
  • Una interesante variante de agentes de navegadores son los agentes de escritorio. Embra AI parece ser el más prometedor en esta área (aunque aún no ha sido lanzado), y Rewind AI podría ser el siguiente.

Parece que la capacidad visual del GPT-4 multimodal podría potenciar enormemente a los agentes de escritorio, especialmente donde no haya texto de accesibilidad o DOM disponible.

Capacidad 4: Creación y Uso de Herramientas (lado del servidor, conectado a todo)

  • Buscar. Las respuestas generadas a partir de conocimiento memorizado del mundo o recuperadas y contextualizadas desde una base de datos, nunca serán tan actuales como simplemente buscar en la web. OpenAI abrió esta posibilidad con WebGPT, mostrando su solución para rastrear la web, resumir contenido y responder con referencias (ahora disponible en los plugins de ChatGPT y en Bing Chat, pero replicado por otros como Dust).
  • Escribir código para ejecutar. Sabíamos que GPT-3 podía escribir código, pero se necesitó una persona valiente como Riley Goodside para pedirle que generara código para capacidades conocidamente deficientes (como matemáticas) y ejecutar el código generado. Replit resultó ser la plataforma de alojamiento perfecta para este estilo de mejora de capacidades.
  • ReAct. Yao y otros (2022) acuñaron el patrón ReAct, que introdujo una plantilla de 'prompts' maravillosamente simple para permitir que los LLMs tomen decisiones confiables sobre herramientas para Razonar + Actuar, dada un conjunto de herramientas. Schick y otros (2023) introdujeron el Toolformer, que entrenó un modelo con tokens especiales, pero esto no parece tan popular.
  • Enfoques Multi-modelo. Se exploraron modelos que llaman a otros modelos con capacidades que no tienen, como HuggingGPT/Microsoft JARVIS y VisualChatGPT.
  • Autoaprendizaje. Self-Learning Agent for Performing APIs (SLAPA) busca documentación de API para enseñarse a sí mismo CÓMO usar herramientas, no solo CUÁNDO. Este enfoque fue adaptado para la especificación OpenAPI para los plugins de ChatGPT, que también utilizó lenguaje natural.

Vale la pena destacar que prácticamente hemos alcanzado la visión completa presentada en un excelente post de John McDonnell hace 6 meses.

No hay texto alternativo para esta imagen


¿Qué novedades estamos viendo en este reciente impulso de capacidades?

Creo que la clave está en los 4 agentes que evolucionaron naturalmente en BabyAGI:

  • El “agente de contexto” (Capacidad 1 + 2) podría ser una versión mucho más inteligente de la recuperación de datos aumentada que LlamaIndex y Langchain están desarrollando. Yohei mencionó la necesidad de un “contexto relevante (tarea)” que podría ser ligeramente diferente de los algoritmos clásicos de similitud semántica ofrecidos por las bases de datos vectoriales.
  • El aprendizaje activo podría volver a ser popular a medida que los “agentes de contexto” autónomos destaquen activamente las cosas que no saben para su priorización.
  • El “agente de ejecución” llama a OpenAI, o cualquier otro modelo, y opcionalmente podría crear o usar herramientas proporcionadas para realizar una tarea (Capacidad 3 + 4).
  • El “agente de creación de tareas” crea tareas, pero no debe alucinar y debe criticarse a sí mismo y aprender de las tareas anteriores (Capacidad 1 + 2). Desafiante, pero no fuera de los límites de las simples pruebas de sentido común.
  • Y el último agente es el "agente de priorización". ¡Ah! ¡Una nueva tarea!

Esto nos lleva a identificar…

Capacidad 5: Planificación, reflexión y priorización

  • Shinn y otros (2023) mostraron que Reflexion, un agente autónomo con memoria dinámica y autorreflexión, podría mejorar drásticamente los resultados en las pruebas de referencia de GPT-4.
  • Shoggoth the Coder ganó el reciente Hackathon de ChatGPT Plugins como un agente independiente capaz de proponer y enviar correcciones PR a proyectos de código abierto.
  • El artículo Simulacra de Meta mostró el entretenido potencial de agentes autónomos NPC interactuando entre sí en un entorno similar a un juego.

Independientemente del caso de uso, se espera que los agentes autónomos planifiquen cada vez más a largo plazo, priorizando listas de tareas, reflexionando sobre errores y manteniendo todo el contexto relevante en la memoria. El artículo "Sparks of AGI" señaló específicamente la planificación como una debilidad notable de GPT-4, lo que significa que probablemente necesitaremos un mayor avance en los modelos fundamentales antes de que esto sea confiable.

La reciente discusión en el seminario web de LangChain Agents también destacó la necesidad de poder apilar agentes y coordinar entre ellos.

Conclusión

En resumen, la inteligencia artificial autónoma ha avanzado rápidamente, desarrollando capacidades que van desde la metacognición hasta la automatización del navegador, y ahora se dirige hacia la planificación, reflexión y priorización. Este progreso constante está abriendo nuevos horizontes en la forma en que las máquinas pueden ayudarnos a resolver problemas complejos y realizar tareas con mayor eficiencia.





Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas