Posibles líneas de evolución de la IA Generativa
En apenas un año la Inteligencia Artificial Generativa se ha abierto camino en prácticamente todas las empresas y organizaciones relacionadas con la ciencia, la ingeniería y las profesiones liberales. Su velocidad de adopción ha superado con mucho a cualquier otra tecnología previa.
En la actualidad OpenAI, Gemini, Claude, Llama, Falcon y otros muchos, están abriendo el camino hacia una nueva generación de herramientas tecnológicas cuyas capacidades son difíciles de prever.
La tecnología está evolucionando tan rápido que es difícil seguir el ritmo. Por otra parte, es necesario intentar mirar hacia el futuro y preguntarnos en qué direcciones puede evolucionar esta tecnología. Este post describe algunas de las posibilidades.
Tokenizadores semánticos
Los tokenizadores son las figuras ocultas del procesamiento de lenguaje natural y los modelos de lenguaje de inteligencia artificial generativa. Hacen el “trabajo sucio” de fragmentar las frases en unidades de información (tokens) y transformarlos en códigos numéricos que pueden ser tratados por el ordenador.
Los tokenizadores actuales son relativamente simples y específicos para cada idioma. Dividen las frases en palabras, identifican a que grupo sintáctico pertenece la palabra (artículo, sustantivo, verbo, pronombre, adjetivo…) e identifican las palabras “poco relevantes”. Estas son las palabras que se repiten con mucha frecuencia en cada idioma, imprescindibles desde un punto de vista sintáctico, pero que apenas tienen valor semántico (el, la, un, se, aunque, y…). A estas palabras se las denomina “stop words”.
Identificar estas palabras sin valor semántico (stop words) es esencial en el funcionamiento de los modelos de lenguaje basados en transformadores, esto es, todos los modelos de lenguaje generativos actuales (ChatGPT, Palm, Llama, Falcon, Claude…). El algoritmo de atención ignora las stop words y construye nuevas frases partiendo sólo del resto de palabras, las que tienen “peso semántico”. El filtrado de las stop words es esencial para el funcionamiento de los modelos de lenguaje de inteligencia artificial generativa. Sin un buen tokenizador, ChatGTP sería incapaz de construir una sola frase coherente.
Es probable que sencillos tokenizadores actuales evolucionen en un futuro muy cercano añadiendo capas de información adicional que describan el significado semántico de los términos. Esto permitiría a los futuros algoritmos de atención “entender” mucho mejor el prompt y generar respuestas mucho más precisas. Los tokenizadores semánticos son posiblemente el camino más directo para que los futuros modelos de lenguaje "entiendan" lo que están escribiendo.
Modelos entrenados en lógica abstracta
Tenemos modelos entrenados con texto, imágenes y audio, capaces de generar respectivamente nuevos textos, nuevas imágenes y nuevo audio. Las estructuras internas de las redes neurales utilizadas en generación de textos son diferentes de las que utilizan los generadores de imágenes y audio, pero en el fondo el funcionamiento es el mismo. El ordenador sólo juega con matrices de números (tensores, en realidad) y genera nuevos contenidos utilizando algoritmos probabilísticos.
Si pudiéramos tokenizar conceptos lógicos sería posible, en teoría, construir un modelo capaz de generar razonamientos lógicos, que podrían ir desde algo tan sencillo como resolver silogismos a algo tan complejo como resolver teoremas matemáticos.
Recomendado por LinkedIn
Estoy convencido de que veremos unos cuantos modelos de este tipo muy pronto, probablemente aplicados a la generación de código
Enjambres de modelos
¿Qué sucedería si combinásemos varios modelos diferentes para que trabajen de forma colaborativa? El primer paso en esta dirección son los modelos multimodales. Así, podemos alimentar a GPT-4, Gemini y otros modelos con una imagen y el modelo nos proporcionará una descripción detallada de la misma.
Honestamente, los modelos multimodales actuales están aún lejos de ser impresionantes. La generación de imágenes se basa en entrenar al modelo con millones de imágenes etiquetadas, esto es, descripciones de todas las cosas significativas que aparecen en la imagen. Los modelos multimodales identifican las etiquetas más probables para la imagen de entrada y luego construye una frase con las etiquetas encontradas. El reconocimiento de etiquetas en imágenes existe hace más de diez años, no es algo realmente disruptivo.
Por otra parte, integrar diferentes modelos para que trabajen de forma colaborativa abre un campo enorme de posibilidades. Es previsible que en un futuro cercano sea posible combinar un modelo fundacional de tamaño pequeño (7B) que tenga la capacidad de generar textos, con varios modelos entrenados con conocimiento jurídico, modelos entrenados en análisis de información financiera, modelos entrenados en cálculo matemático y modelos entrenados en lógica abstracta. El sistema resultante sería mucho más ligero que los modelos fundacionales actuales y con total seguridad proporcionaría respuestas mucho más precisas.
Meta-modelos
Llevando el concepto de enjambres de modelos al límite, podemos pensar en un sistema formado por miles o decenas de miles de modelos interconectados. Sería una red neuronal en la que cada nodo sería un modelo. Este “cerebro artificial” podría tener una capacidad extraordinaria para adquirir y actualizar conocimientos. Tan sólo tendríamos que añadir nuevos nodos o reemplazar los que han quedado obsoletos.
Conceptualmente el funcionamiento de estos meta-modelos no sería muy diferente del funcionamiento del cerebro humano. La información de entrada, ya sea texto, imágenes, vídeos, sonidos o datos estructurados, activaría tantos modelos como fuera necesario y estos, de forma colaborativa, construirían la respuesta combinando las respuestas de todos los modelos activados. Hace unos pocos años un sistema como este era años era ciencia-ficción, hoy estamos realmente cerca de poder construirlo.
Siendo estrictos en la definición, estos meta-modelos no serían un sistema de Inteligencia Artificial General (AGI), pero su comportamiento aparente podría ser tan próximo al que esperaríamos de un interlocutor humano que, en la práctica, lo consideraríamos un sistema AGI.
No puedo predecir cuáles de estas tendencias fructificarán o que otras sorpresas nos deparará el futuro. Lo único que parece ser indudable en el complejísimo escenario tecnológico actual es que la inteligencia artificial generativa que tenemos en la actualidad es tan solo un paso en el camino, un primer hito de un largo recorrido que nos puede llevar a escenarios extraordinarios si la utilizamos con ética y responsabilidad.
Partner at Garrigues | IP/IT litigation & contracts | Digital Business | Advertising | Consumers | Freedom of speech
1 añoGran artículo Fernando López Velázquez tan claro y didáctico como siempre 🤓