¿Una nueva revolución en en ciernes en el mundo de la IA?

¿Una nueva revolución en en ciernes en el mundo de la IA?

Por poco que hayas seguido la evolución de la Inteligencia Artificial habrás oído hablar de los Transformers. Un artículo publicado en 2017 (no ha llovido ya) titulado Atenttion is all you need salido de los laboratorios de Google definía un nuevo algoritmo para predecir la siguiente palabra de un texto y ponía patas arriba todo el estado del arte del NLP (Procesamiento del Lenguaje Natural).

Un resumen muy resumido de cómo funciona este código sería: un Transformer funciona como un lector muy atento que puede mirar y darle importancia a cualquier parte de un texto a la vez para entenderlo y responder preguntas sobre él.

Arquitectura de un Transformer

A partir de aquí salió GPT2, GPT3, Chat GPT... y sus capacidades emergentes, cosas que el modelo sabe hacer a pesar de no haber sido entrenado para ello.

Con el paso del tiempo (ojo, que GPT4 tiene un año sólo) nos hemos dado cuenta de los problemas que tiene el modelo. Uno de ellos es la limitación de la ventana de contexto o, lo que es lo mismo, la cantidad de texto que el transformer puede leer. Esto consume memoria como un loco y, además, hace mucho más lenta la salida.

Se está dando muchas vueltas a cómo acelerar los modelos y, a la vez, agrandar esa ventana de contexto. Una de las opciones de mejora pasa por no dar la misma importancia a una pregunta tonta (¿dos mas dos?) que a una que requiera más "inteligencia" (explica el horizonte de sucesos en un agujero negro para un no iniciado en la materia).

Mamba, el nuevo en el colegio.

Hay un nuevo enfoque a la resolución de problemas, los Modelos de Espacio de Estado o SSMs. Una de sus características es que pueden modelar sistemas dinámicos que cambian con el tiempo

Los SSMs son modelos muy versátiles, se pueden aplicar a tareas de texto, visión, audio y series temporales. Una de sus fortalezas es su capacidad para manejar secuencias muy largas, generalmente con un menor número de parámetros que otros modelos, y además es muy rápido.

Y aquí viene Mamba, que se presenta como una alternativa prometedora a los modelos de Transformers en el campo de la Inteligencia Artificial, prometiendo rendimientos comparables o incluso superiores a los Transformers, especialmente en el manejo de secuencias largas (hasta un millón de tokens) gracias a su capacidad para superar el "cuello de botella cuadrático" de los Transformers. Además, Mamba es mucho más rápido, alcanzando velocidades de hasta 5 veces mayores que los Transformers.

Mejor con un ejemplo.

Imagina que tienes un libro gigantesco que quieres leerte entero, pero tu memoria sólo puede recordar unas pocas páginas a la vez. Los Transformers intentan solucionar este problema leyendo y recordando todo lo que pueden de un tirón, lo que los hace muy lentos y poco eficientes si el libro es muy largo.

Mamba usa una estrategia diferente. En lugar de tratar de abarcar y recordar todo a la vez, Mamba lee el libro página por página y va resumiendo lo que lee en notas breves. Cada vez que Mamba lee una nueva página, actualiza sus notas con la información más importante de esa página, de una manera que le permite seguir adelante rápidamente sin tener que mirar hacia atrás todo el tiempo. Esto hace que sea muy eficiente, especialmente con libros (o, en términos de IA, con datos) muy largos.

En términos técnicos, lo que hace especial a Mamba es que supera un gran problema de los Transformers llamado el "cuello de botella cuadrático", que es básicamente lo que hace que leer el libro completo (o procesar datos largos) sea lento y requiera mucha memoria. Mamba lo hace usando los Modelos de Espacio de Estado de los que hablábamos, que son las notas breves que iba apuntando en cada capítulo, permitiéndole recordar y procesar información de manera más eficiente.

¿Es Mamba el nuevo Transformer?

¿Habrá un salto exponencial con este modelo similar al de los últimos 5 años? Pues no lo sabemos. No sabemos si será con este modelo, con otro diferente o si al Transformer aún le queda guerra para rato. Lo que sí está claro es que nos esperan unos años con muchas mejoras en los modelos de IA.

Ya hemos detectado dónde empiezan a quedarse pequeños y la comunidad investigadora está dándole a la cabeza. Y hay mucha pasta puesta ahí, así que no dudes en que lo resolverán.


Más info, en este artículo (para muy cafeteros).

https://thegradient.pub/mamba-explained/



Guiomar Cotelo Cano

UX Designer • Front-end developer

9 meses

Super interesante! Y qué bien lo explicas siempre! <3

Alicia Gutiérrez Barajas

Formación InCompany en Mr.Marcel School | Freelance 👉 Brand Strategy & Designer | Art Direction | AI trainer: Midjourney & more

9 meses

Woooww! Pues mira estoy deseando probarlo! Ojalá lo implementen pronto jajaj, no sé cómo pero estaría genial que sucediera este ano o al que viene.

Elena Rodriguez Alonso

Health & Public Service Lead Accenture Song

9 meses

siempre da gusto leerte Juan Antonio Casado 😍

Inicia sesión para ver o añadir un comentario.

Más artículos de Juan Antonio Casado

Otros usuarios han visto

Ver temas