Peonzas y yoyos, el talón de aquiles de las IAs generativas de imágenes
La generación de imágenes a través de la IA evoluciona cada poco tiempo y, desde donde partía hace unos años hasta donde estamos hoy, podemos decir que ha dado un salto de gigante. Uno de los hitos más relevantes es que se puede especificar textos para que aparezcan dentro de la imagen. Sin ser perfecto todavía, somos capaces de conseguir resultados más que aceptables, como por ejemplo, generar una imagen de una pizarra con el texto “LOVE”.
Un hito que se alcanzó hace unos meses es la generación de imágenes donde las manos de las personas no parecieran propias de un mutante. A día de hoy, en las últimas versiones de Midjourney se cubre bastante bien la generación de manos de personas, aunque te puedes encontrar algún patinazo que otro.
En próximas versiones de Midjourney (y en otras herramientas similares como Leonardo.ai) es probable que las imágenes que obtengamos mejoren en los pequeños detalles para darle realismo, pero tendrán que ir superando otra serie de problemas que voy a ir detallando en este artículo.
Generación de objetos realistas de tamaño pequeño
Midjourney tiene un gran contexto de conceptos del mundo en que vivimos, pudiendo representar de manera coherente y próximo a nuestras expectativas en cuanto a identificar aquello que hayamos descrito en el prompt. Si le damos como entrada “black podenco jumping on a green sofa”, él va a devolver unas imágenes de un perro de la raza podenco, pelaje de color negro y con una pose de salto encima de un sofá, siendo un resultado muy satisfactorio.
¿Pero qué pasa si le pedimos que represente imágenes de objetos pequeños? En este caso, podemos encontrar una extensa lista de objetos que también va a saber cómo representar sin muchos problemas, como puede ser un ordenador portátil, una tablet, un teléfono, un reloj de pulsera o un tenedor, pero hay muchos en los que va a ser complicado que la imagen corresponda a un objeto real como un yoyó, una peonza o un destornillador.
No hay ninguna lista que podamos tomar de referencia, pero hay un truco que podría utilizarse para saber cómo de maduro está Midjourney a la hora de generar imágenes realistas de ese objeto: si solo se escribe el objeto que queremos generar sin dar más contexto y obtenemos una imagen con mucho detalle, podemos trabajar en el prompt para conseguir un resultado deseado. En el caso contrario, por mucho que lo intentes, va a ser muy difícil. Lo ilustro con dos ejemplos:
Recomendado por LinkedIn
El problema se agrava si le pedimos que genere imágenes de personas interactuando con esos objetos. Por ejemplo, con el prompt “kid reading a book” tendremos imágenes realistas de niños leyendo un libro como si fueran fotografías reales. En cambio, con el prompt “child playing with a metal yo-yo”, obtendremos imágenes de niños interactuando con bolas de metal.
La cultura americana condiciona el uso de prompts
Si todavía no has tenido la oportunidad de trastear con Midjourney, debes saber que se usa el inglés como idioma para escribir los prompts. Pero hay palabras en Inglaterra que no significan lo mismo que en Estados Unidos, como el término football: con el prompt “football player” obtendremos un jugador de fútbol americano (rugby) y con el prompt “soccer player” obtendremos un jugador de balompié (conocido popularmente como fútbol en EU).
Otro tema cultural que cambia de un país a otro es la gastronomía. Aquí podemos tener suerte de que un plato nacional como la paella o tortilla española es conocido igual en EEUU, por lo que las imágenes pueden pasar por una foto hecha a un plato de comida en España. Los problemas vendrán cuando queramos una imagen de un cochinillo asado tal y como podríamos comerlo en Segovia.
Algo parecido nos ocurre con vestidos tradicionales de una región como un vestido de boda. En este caso es más sencillo obtener algo parecido a vestidos de boda que podrían usarse en Japón o Vietnam, pero es muy creativo si pedimos el vestido para España, Portugal o Italia.
Recomendaciones para solventar estos problemas
Lo primero, es una tecnología que se reinventa cada poco tiempo, por lo que aquellos resultados que no puedes conseguir hoy igual los puedes obtener dentro de 3 meses. No desistas de usar la IA para generar imágenes y puedes enfocarte en aquellos aspectos que cubre con creces. Hay mucho que aprender y con el uso puedes ir encontrando algunas soluciones para ir superando las dificultades que te encuentres.
Lo segundo, Midjourney no ofrece la posibilidad de entrenar tus propios modelos a día de hoy, pero Leonardo.ai sí. Si necesitas generar imágenes muy específicas de algún tipo de objeto o incluso estilo visual, se puede trabajar en generar un modelo reentrenando uno existente a partir de tus propias imágenes. Un ejemplo práctico puede ser la generación de un modelo para gafas de una marca, reentrenando un modelo con fotografías de gafas de esa marca.
Y por último, participar en una comunidad donde los miembros puedan compartir sus truquillos y experiencias ayudará a encontrar soluciones o atajos que en otro lugar no se puedan dar.
Cloud Technical Lead
11 mesesAcabo de ver que las leyendas de las imágenes aparecen cortadas, si os interesa saber los prompts que he usado los puedo dejar en comentarios