El camino hacia la AGI-> I.As Multimodales: Kosmos-1 y PalM-E.  👾🤖... y la semana que viene saldrá GPT-4 y será ...Multimodal!!! OMG!
Imagen Contenido Sintético generada con Lexica.

El camino hacia la AGI-> I.As Multimodales: Kosmos-1 y PalM-E. 👾🤖... y la semana que viene saldrá GPT-4 y será ...Multimodal!!! OMG!

10/03/2023

Llevamos un mes de publicaciones "troppo interesantes", pero nos vamos a detener en dos : las de los equipos de Microsoft y Google a la búsqueda de la Inteligencia General Artificial (AGI).

En el momento actual los LLMs (Large Language Models) , los modelos generativos de difusión y en definitiva, la tecnología derivada de transformers, han conseguido que se resuelvan bastante bien tareas aisladas: convertir texto a imagen, texto a video, imagen a texto... Y aunque queda mucho camino por recorrer, el foco ya está puesto en avanzar la investigación hacia la inteligencia artificial multimodal. Todos conocemos el mítico Google "All You Need is Attention", de ahí el título del paper de Microsoft del 27 de febrero: "Language Is Not All You Need: Aligning Perception with Language Models". En esta investigación se aborda el concepto de MLLM o Multimodal Large Language Model a través de un modelo al que han denominado Kosmos-1.

KOSMOS-1 MICROSOFT . MLLM 27/02/2023 review 01/03/2023

Lo novedoso de KOSMOS-1 es que crea un espacio vectorial a partir de las relaciones entre contenido de pares imagen|texto y texto. Es decir, donde antes sólo se entrenaba un modelo con texto, con mucho pero que mucho texto, ahora se combina añadiendo al entrenamiento pares de imagen con sus etiquetas descriptivas. Esta multimodalidad consigue que el modelo se beneficie del conocimiento visual pudiendo realizar lo que se denomina transferencia intramodal para la resolución de la tarea para la que ha sido diseñado, que sigue siendo la predicción lingüística. Predecir el siguiente token más probable dado el contexto anterior.
Los resultados que se consiguieron denota una mejoría en todas las áreas testadas, especialmente razonamiento y sentido común. Cabe destacar además que este modelo trabaja con muchísimos menos parámetros que otros obteniendo resultados más precisos en tareas complejas como el razonamiento. Puede desde leer el texto de una imagen, responder a preguntas sobre el contexto visual, predecir secuencias...
Por ejemplo, una tarea en donde se ha visto como realiza la transferencia intramodal es la de comprensión web, el modelo se apoyó en su conocimiento de las imágenes atendiendo también al diseño... con la información que pudo extraer obtuvo mejores resultados en las tareas de comprensión.

Aquí dejo una imagen que resume muy bien lo que puede hacer, he reunido los que considero los ejemplos más sorprendentes del paper. Todos son extraordinarios pero me ha encantado el apofénico entre conejo y pato... muy sorprendente.

No hay texto alternativo para esta imagen
Kosmos-1 Ejemplos de entradas con preguntas relacionadas con las imágenes.

PALM-E GOOGLE. An Embodied Multimodal Language Model. 07/03/2023

Por su parte Palm-e, el otro modelo de propósito general multimodal, opera secuencias de embeddings con implementaciones adaptadas a cada caso para incrustarlas en el modelo previamente entrenado. Así, por ejemplo, para entradas visuales de estados robóticos, transforma,codifica e incrusta tokens a fin de obtener la misma dimensión del modelo. De esta manera podemos trabajar con vectores latentes de frases multimodales como entradas del Large Language Model.

El problema de este modelo es que cuenta con varias estrategias específicas para la codificación de las distintas señales, eso hace que resulte estructuralmente complejo. Realiza procesos específicos desde implementar máscaras de instancia de ground-truth a OSTR para incrustar las representaciones centradas en objetos o para casos que requieran identificación de entradas de objetos iguales referencia las entidades con tokens especiales secuenciales (por ejemplo para que el modelo diferencie entre bloques azules iguales, hace uso de numeraciones). La idea es que todas las entradas multimodales puedan ser codificadas para trabajar en ese mismo espacio vectorial del LLM (PaLM) preentrenado.

La motivación del paper es inferir toda esa capacidad de representación de nuestro mundo real que demuestran los modelos grandes entrenados con masivas cantidades de texto para tareas complejas en el mundo de la robótica, Un medio para vincular palabra y percepción. Este modelo , a diferencia del de Microsoft es muchísimo más grande, cuenta con 562B de parámetros y es capacitado en lenguaje visual con escala creciente.

Dos métodos distintos pero la finalidad es la misma, la multimodalidad o como transferir conocimiento inferido de distintas para responder a preguntas sobre el mundo observable. El siguiente paso será la implementación de audio porque se busca que estos modelos puedan interactuar plenamente con los usuarios.
No hay texto alternativo para esta imagen
Imagen Paper PaLM-E

Y por último, pero no menos importante hace 24 horas se anuncia que GPT-4 saldrá la semana que viene y también será multimodal es decir incluirá video.

Aquí te dejo esta imagen porque es muy probable que estemos al inicio de ese rango donde el que el mercado va a empezar a saturarse de modelos inteligentes para luego crear esa asíntota. ¿Tú que opinas?.

No hay texto alternativo para esta imagen
Conferencia 2010 Roko Mijic, imaginando la temporalidad y evolución hacia una AGI.


Si te gusta el contenido contribuye en Buy me a coffe!

Inicia sesión para ver o añadir un comentario.

Más artículos de Alicia Colmenero Fernández

Otros usuarios han visto

Ver temas