BatallitIA 4: Ver y recordar
Fragmento del diálogo Menón, de Platón

BatallitIA 4: Ver y recordar

Cuando llevábamos medio año trabajando en el proyecto Saint George on a Bike, allá por el 2021, nos dimos cuenta de que el dataset de entrenamiento tenía pocos ejemplos de algunas clases, como caballeros o unicornios. Entonces planteé una propuesta para superar este handicap, que fue la siguiente: a partir de las clases detectadas en la pintura, inferir con un modelo del lenguaje una clase de la cual no teníamos muchos ejemplos. De este modo no necesitaríamos recopilar un gran número de ejemplos para enseñar a detectar, pongamos, a un caballero. Bastaba con identificar en la pintura un caballo, una persona encima de él y una espada en su mano, ponerlos en un contexto tipo una persona sobre un caballo con una espada es un …. e inferir la clase caballero con un modelo transformer como si fuera un ejercicio de fill in the blanks.

Presenté mi propuesta como paper a un importante congreso de lingüística computacional. Los revisores consideraron que la propuesta era interesante y atractiva pero que para aprobar el paper era necesario explicar la evaluación de los resultados que habíamos obtenido. En realidad no habíamos tenido tiempo de aplicar la propuesta, pero nos interesaba tener feedback para saber si valía la pena dedicar el esfuerzo de llevarla a cabo.

Internamente, mi idea no convencíó del todo a un ingeniero informático, especialista en Deep Learning. Según él, la detección de los objetos estaría más condicionada por el modelo del lenguaje que por la imagen misma. Decía que el sistema no se concentraría en mirar y analizar la imagen sino que, con algunos elementos detectados, se dejaría llevar por el modelo del lenguaje hasta predecir objetos que no estarian en la pintura.

Ahora creo que mi propuesta anticipó las descripciones de imágenes con LLaVA. Y me he dado cuenta de ello al hacer la prueba de pedirle a LlaVA repetidamente la descripción de una pintura, con los mismos paràmetros de temperatura, y viendo la aletoriedad de las descripciones. En este artículo explicaré por qué.

Aleatoriedad en la descripción de imágenes

Los procesos de decisión que llevan a la generación de un output con un modelo generativo no pueden ser deterministas. El motivo es que el output no puede deberse a un sobreentrenamiento ni puede estar sesgado. Además, introducir aleatoriedad garantiza la robustez y la capacidad de generalización del modelo. Por eso los procesos de decisión se inician con valores aleatorios.

Ahora bien, la deliberada incorporación de aletoriedad en la generación del output tiene como consecuencia el hecho de que si repetimos la petición con el mismo ínput, sin cambiar las condiciones, podamos obtener outputs distintos. Es el caso que explicaremos a continuación, con el prompt Lista los objetos representados en la pintura con una temperatura de 0.2.

Primera petición de descripción de una pintura de San Jorge

Concentrémos en la detección del estandarte. Parece que el sistema ha analizado la imagen y visto el estandarte, identificándolo con precisión: un estandarte rojo con barras amarillas. .

Veamos ahora, el resultado con el mismo prompt y con el mismo valor de temperatura. En esta ocasión, el estandarte no tiene barras de color sino una cruz. Es decir, identifica un objeto que no está en la pintura.

Segunda petición de descripción de una pintura de San Jorge

Lo que tienen en común ambas descripciones es que han reconocido el estandarte como un atributo iconográfico de San Jorge. El estandarte con las barras de colores es, concretamente, el atributo de San Jorge como patrón de Cataluña. Son atributos iconográficos que el modelo habrá aprendido de los millones de pares imágenes-descripciones con los que se ha entrenado.

Veamos ahora la descripción de otra pintura con el mismo prompt y una temperatura de 0.2

Primera petición de descripción de una pintura con querubines

La descripción es bastante fiel a lo representado en la pintura. Veamos ahora el output cuando volvemos a hacer la misma petición, con el mismo valor de temperatura

Segunda petición de descripción de una pintura con querubines

Es especialmente destacable la referencia a un instrumento musical de cuerda, sostenido por un ángel, que no está en la pintura. El instrumento de cuerda también es un atributo iconográfico de los querubines cuando rodean la figura de la Virgen María, como en la siguiente pintura de Bernardino Luini, en el Brooklyn Museum

En el artículo anterior vimos un escudo que no estaba en la pintura que también es un atributo de un caballero como San Jorge. En resumen, la mayoría de alucinaciones que he comprobado no se deben a la confusión con un objeto que tiene una forma parecida. Los objetos que no están en la pintura son atributos de una entidad que sí está en la pintura. Parece como si el sistema no mirara detenidamente la pintura sino que predice la presencia de unos objetos a partir del reconocimiento de otros objetos.

Mirar y recordar

El encabezamiento de este artículo muestra un fragmento del diálogo Menón de Platón. En este diálogo Platón presenta la anamnesis, la idea de que aprender y buscar no es más que recuerdo. Nos podemos inspirar en el Menón para explicar de forma poética lo que me parece que ocurre en el reconocimiento de objetos con LlaVa. Todo se ha aprendido durante el entrenamiento del modelo. Y, al reconocer un objeto, encuentra en sí mismo los demás, porque, además de ver la imagen, recuerda lo que ha visto en otras imágenes parecidas. Las predicciones de nuevas entidades con un modelo del lenguaje son manifestaciones de este recuerdo. Ahora bien, el entramado semántico puede ser tan complejo, que la búsqueda de objetos con procedimientos que tienen un componente aleatorio, como decíamos al principio, hace que en una ocasión se recuerden unas cosas y en otra ocasión se recuerden otras.

¿Presentar atributos o clases?

En los ejemplos que hemos visto, las cosas predichas, estén o no en la pintura, son atributos de una clase: la clase caballero, San Jorge, querubín, la Virgen María, etc. Si el modelo generativo fuera capaz de sintetizar los atributos y se refiriera directamente a la clase, las alucinaciones no sería tan destacables. Por ejemplo, sería más adecuado decir San Jorge matando el dragón, después de reconocer el caballo blanco, la armadura, el estandarte, la lanza, etc. como atributos de San Jorge, independientemente de si el estandarte tiene una cruz o unas barras rojas y amarillas.

Describir la pintura haciendo referencia directa a las clases, que se identifican con la ayuda de sus atributos, fue el objetivo principal del proyecto Saint George on a Bike, y obtuvimos resultados prometedores con FrAI Angelico. Este objetivo todavía no se alcanza con un modelo generativo de referencia como LlaVA. Veremos qué pasa con los nuevos modelos que se están anunciando.




Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas