Capacidades Clave en la evolución de la Autonomía de agentes IA: The Anatomy of Autonomy
Tal como se ha observado al estudiar las relaciones de conocimientos en las redes neuronales naturales, cada convolución que añade arrugas al cerebro nos hace un poco más inteligentes. De manera similar, la Inteligencia Artificial (IA) avanza mediante "convoluciones", y en retrospectiva, nuestro camino hasta el presente parece obvio. Me gustaría esbozarlo:
Modelos Fundacionales (Foundation Models):
Todo comienza con la evolución y disponibilidad generalizada de enormes Modelos de Lenguaje de Aprendizaje Profundo (LLMs) mediante APIs o código abierto. El tamaño colosal de estos modelos permite tres características principales:
Esto lleva al surgimiento de los primeros ingenieros de 'prompts', como Gwern Branwen y Riley Goodside, quienes exploraron creativas indicaciones en una sola interacción.
Capacidad 1: Metacognición (mejora autónoma del razonamiento puro)
Aparecen más y más técnicas como Calibrar Antes de Usar, Auto-Interrogarse, Árbol de pensamientos, Ingeniería Automática de Prompts, entre otras.
Capacidad 2: Memoria Externa (lectura de datos externos mayormente estáticos)
La capacidad de aprendizaje en contexto/pocas interacciones podría utilizarse para actualizar un modelo fundacional más allá de su fecha de corte de conocimiento y enfocarse en datos específicos de un dominio o privados.
Las restricciones de longitud de contexto llevan a la necesidad de incrustar, dividir y encadenar marcos de trabajo como LangChain, y bases de datos vectoriales como Pinecone (valorada en $700 millones), Weaviate ($200 millones) y Chroma ($75 millones).
Otra manera de utilizar el lenguaje natural para acceder y responder preguntas de bases de datos relacionales son las compañías de Texto a SQL, que incluyen Perplexity AI ($26 millones en Serie A), Seek AI ($7.5 millones en ronda semilla), y otros enfoques como CensusGPT y OSS Insight.
Capacidad 3: Automatización de Navegadores (lectura y escritura en un navegador aislado)
Sharif Shameem fue uno de los primeros en demostrar cómo GPT-3 podía automatizar Chrome para comprar Airpods en 2021.
Parece que la capacidad visual del GPT-4 multimodal podría potenciar enormemente a los agentes de escritorio, especialmente donde no haya texto de accesibilidad o DOM disponible.
Recomendado por LinkedIn
Capacidad 4: Creación y Uso de Herramientas (lado del servidor, conectado a todo)
Vale la pena destacar que prácticamente hemos alcanzado la visión completa presentada en un excelente post de John McDonnell hace 6 meses.
¿Qué novedades estamos viendo en este reciente impulso de capacidades?
Creo que la clave está en los 4 agentes que evolucionaron naturalmente en BabyAGI:
Esto nos lleva a identificar…
Capacidad 5: Planificación, reflexión y priorización
Independientemente del caso de uso, se espera que los agentes autónomos planifiquen cada vez más a largo plazo, priorizando listas de tareas, reflexionando sobre errores y manteniendo todo el contexto relevante en la memoria. El artículo "Sparks of AGI" señaló específicamente la planificación como una debilidad notable de GPT-4, lo que significa que probablemente necesitaremos un mayor avance en los modelos fundamentales antes de que esto sea confiable.
La reciente discusión en el seminario web de LangChain Agents también destacó la necesidad de poder apilar agentes y coordinar entre ellos.
Conclusión
En resumen, la inteligencia artificial autónoma ha avanzado rápidamente, desarrollando capacidades que van desde la metacognición hasta la automatización del navegador, y ahora se dirige hacia la planificación, reflexión y priorización. Este progreso constante está abriendo nuevos horizontes en la forma en que las máquinas pueden ayudarnos a resolver problemas complejos y realizar tareas con mayor eficiencia.