AI generativa. La entropía lo es todo.
Aquellos que han tenido el valor de examinar en profundidad el código de los sistemas de inteligencia artificial generativa ya habrán descubierto que los bucles de entrenamiento consisten esencialmente en el cálculo de diferentes variantes de entropía: entropía cruzada, entropía categorizada y entropía categorizada dispersa.
Lo primero que necesitamos entender es la estrecha relación entre el lenguaje y la entropía.
¿Qué es la entropía?
De forma muy simplista podemos decir que la entropía mide el desorden de un sistema. Un sistema muy ordenado tiene poca entropía, un sistema desordenado tiene mucha entropía. Por ejemplo, una pared de ladrillos es un sistema con poca entropía, los ladrillos están colocados perfectamente ordenados en hileras. Los mismos ladrillos desperdigados por el suelo tienen mucha entropía.
En el Universo la entropía tiende siempre a crecer, esto es, los sistemas tienden al desorden. Supongamos que la pared ha sido construida apilando ladrillos sin colocar cemento que los mantenga unidos. Si transferimos a nuestra frágil pared sin cemento un poco de energía los ladrillos caerán y se desperdigarán por el suelo. Un simple empujón o una corriente de aire puede ser suficiente. En el nuevo estado de pared derribada los ladrillos estarán desordenados, esto es, la entropía del sistema será alta. Pasar de un estado de entropía baja a entropía alta es sencillo, es como bajar por una pendiente. Por el contrario, pasar de un estado de entropía alta a un estado de entropía baja requiere mucho esfuerzo. Es extremadamente improbable que una corriente de aire levante los ladrillos del suelo y reconstruya la pared. Para volver a levantar la pared necesitamos intervención externa y consumo de energía.
La tendencia del universo es que la entropía crezca siempre. Reducir la entropía requiere gastar energía, a veces mucha energía.
¿Cuál es la relación entre la entropía y el lenguaje?
Un documento de texto es una secuencia ordenada de palabras. Transponer las palabras al azar provocará por lo general que la frase esté mal construida, carezca de sentido o su significado varíe por completo.
Así, la frase "Se vende casa con garaje y jardín para niños" se puede convertir en:
La frase original tiene poca entropía, los términos están ordenados y eso le confiere un significado. A medida que desordenamos las palabras la entropía aumenta y el significado de la frase termina perdiéndose por completo.
No solo el orden de las palabras es importante. Las frases están ordenadas y agrupadas en párrafos, que a su vez están ordenados y agrupados en capítulos que también están necesariamente ordenados para formar un documento o un libro. El texto completo es un sistema de entropía muy baja. Si desperdigamos las páginas por el suelo obtendremos un sistema desordenado de alta entropía. Sin queremos volver a leer el libro tendremos que gastar mucha energía para reducir la entropía recogiendo y ordenando las páginas.
Los sistemas de inteligencia artificial generativa utilizan una representación interna de la información completamente diferente. Ya no tenemos secuencias de palabras, como en un libro. Lo que tenemos es una representación de la probabilidad de la palabra que irá a continuación de la secuencia de palabras previas, todo ello almacenado en una red neuronal, que no es más que una estructura de datos conceptualmente muy sencilla pero que puede crecer hasta tener millones de neuronas y miles de millones de parámetros. Por este motivo es extremadamente complejo interpretar la estructura de las redes neuronales de los LLM. Los parámetros no son más que la representación de la probabilidad de la siguiente palabra.
Al comenzar a construir una red neuronal los valores de los parámetros se inicializan con valores aleatorios. Es un sistema de máxima entropía. Las frases que generará el sistema inicial serán combinaciones aleatorias de palabras sin sentido, esto es, frases con mucha entropía.
El entrenamiento consiste en introducir en el sistema frases construidas de forma correcta, esto es, con muy poca entropía. En el bucle de aprendizaje se ajustan los parámetros de la red neuronal para calcular y reducir la variación de la entropía de la red. El objetivo de que las secuencias de palabras que genere el sistema tengan niveles de entropía similares a los que contienen las frases utilizadas en el entrenamiento.
Tras entrenar el sistema con multitud de textos en varios ciclos de entrenamiento, los parámetros de la red neuronal quedarán configurados de tal forma que las secuencias erróneas de palabras tendrán probabilidad nula y sólo quedarán las secuencias posibles. Como resultado, el sistema podrá generar textos cuyos niveles de entropía son similares a los textos originales.
Al transferir el contenido de los textos originales a una red neuronal se producen varios efectos interesantes:
Reducción de tamaño
El tamaño de la red neuronal será mucho menor que el tamaño agregado de todos los textos utilizados para el entrenamiento. Las redes neuronales entrenadas para la generación de textos ocupan decenas de gigabytes, pero el volumen de los textos utilizados en el entrenamiento son petabytes de información.
Como aproximación práctica podemos aceptar que los modelos de lenguaje pueden llegar a comprimir la información de los textos originales en una proporción de 100.000 a 1.
Aumento de la entropía
La entropía de la red neuronal siempre será mayor que la entropía de los textos originales, pero la entropía de los textos generados resulta ser sólo ligeramente mayor.
Recomendado por LinkedIn
La diferencia de entropía entre los textos originales y los textos generados se hace más evidente cuanto más largo es el texto. Esto es consecuencia de que el entrenamiento de la red se centra esencialmente en las estructuras de las frases.
Pérdida de información
El aprendizaje es un proceso destructivo. La red neuronal contiene menos información que los textos originales. La mayor parte de la información que se pierde en el proceso es redundante, pero en ocasiones la pérdida puede ser relevante.
Es un problema de volumen estadístico. Si la mayor parte de los documentos de entrenamiento tienen nivel de enseñanza secundaria, los textos de nivel universitario se diluirán en el proceso de aprendizaje. El resultado será que el modelo tendrá una marcada tendencia a generar contenidos de nivel de enseñanza secundaria.
Alucinaciones
Las alucinaciones son consecuencia de la diferencia de entropía entre la red neuronal y los textos originales. Son inevitables.
El proceso de aprendizaje no tiene problemas en descartar con facilidad las combinaciones prohibidas sintácticamente, pero al aspecto semántico es mucho más sutil. Así, un modelo de lenguaje correctamente entrenado nunca generará una frase del estilo “Garaje jardín para con casa y niños vende se”, pero podría generar perfectamente “Se vende jardín y niños para casa con garaje”.
Pérdida de capacidad para generar los textos originales
Las redes neuronales son capaces de generar frases muy similares a las utilizadas en el entrenamiento, a veces incluso idénticas, pero no tienen la capacidad de reproducir los textos originales completos.
Esto es consecuencia de que la entropía de la red neuronal es mayor que la de los documentos originales y la cantidad de información que contiene es menor.
La diferencia de entropía entre los textos generados y los textos originales aumenta a medida que aumenta la longitud del texto. La probabilidad de que un LLM reproduzca literalmente un artículo o un libro sería comparable a que una corriente de aire levantase los ladrillos desperdigados por el suelo y levantase una pared perfectamente ordenada.
Por otra parte, es perfectamente posible utilizar técnicas de inyección de prompts para reconstruir textos frase a frase. Esto sería equivalente a ir colocando los ladrillos uno a uno, utilizando la pared medio construida como indicación de cuál es la siguiente frase que debe generar el modelo. El texto final no será idéntico al original, pero se puede parecer mucho. Esto es consecuencia de que la diferencia de entropía entre la red neuronal y el texto original es muy pequeña a nivel de frase.
Underfitting y overfitting. El proceso de entrenamiento es crítico
Si la red neuronal es entrenada con menos ciclos de los necesarios (underfitting) la diferencia de entropía entre la red y los documentos originales será mayor y el sistema tenderá a sufrir alucinaciones.
Si la red es entrenada con más ciclos de los necesarios (overfitting) la diferencia de entropía será menor y el sistema tendrá tendencia a reproducir las secuencias de palabras más frecuentes.
A principios de 2023 la personalización de modelos pre-entrenados se basaba fundamentalmente en realizar ajustes finos, esto es, entrenamientos secundarios. Esta tendencia ha perdido mucho peso en los últimos meses por dos motivos:
Confidencialidad y privacidad
A veces una frase es suficiente para romper la privacidad. Si en el proceso de entrenamiento se han utilizado textos que contienen nuestro nombre completo y se ha etiquetado nuestro nombre como un token, la red neuronal tendrá capacidad para generar frases que incluyan nuestro nombre.
La entropía vuelve a ser clave. Si nuestro nombre aparece en muy pocos textos la entropía será pequeña y el sistema tenderá a generar frases que utilicen nuestro nombre en el contexto de las frases originales. Esto puede ser un problema de privacidad. Por el contrario, si nuestro nombre aparece en multitud de frases la entropía aumenta y el sistema podrá utilizar nuestro nombre en contextos completamente diferentes. Esto puede ser un problema de fake news.
Una vez entendida la relación entre entropía e inteligencia artificial generativa podemos plantearnos una pregunta muy relevante cuando diseñamos un modelo: ¿Cuál es la entropía mínima que necesito para resolver un caso de uso?
La respuesta a esta pregunta nos indicará el tipo de inteligencia artificial generativa que necesito, que arquitectura debo utilizar, o incluso si hay otras tecnologías más adecuadas.
Partner at Garrigues, Head of México and Bogotá offices, co-Head Brazilian desk
9 mesesMuy bueno!
Enterprise Architect - CoreBanking - Pagos - Digitalización - ENS- DORA -Cyber Legal, Policy and Compliance Officer - Abogado Promoción Noviembre 2023 Ministerio de Justicia
9 mesesBuenisima explicacion Fernando López Velázquez. En mi opinion, poca Arquitectura Empresarial en la ideacion
Of counsel 𝗚𝗮𝗿𝗿𝗶𝗴𝘂𝗲𝘀 / Observatorio Legaltech & NewlLaw 𝗜𝗖𝗔𝗗𝗘/ 𝗗𝗶𝗴𝗶𝘁𝗮𝗹 𝘁𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 - 𝗶𝗻𝗻𝗼𝘃𝗮𝘁𝗶𝗼𝗻
9 mesesQue alejado este planteamiento del "cuñadismo" que nos rodea al comentar estos temas.
Directora de Comunicación y Márketing en Garrigues
9 mesesSúper interesante, Fernando.
Abogada en Garrigues | Litigación y Arbitraje | Transformación digital y legaltech | Garrigues Digital | Compliance | Logística y Transporte
9 mesesFernando López Velázquez cuánto aprendemos contigo! Lujo total leerte.