Peonzas y yoyos, el talón de aquiles de las IAs generativas de imágenes

Peonzas y yoyos, el talón de aquiles de las IAs generativas de imágenes

La generación de imágenes a través de la IA evoluciona cada poco tiempo y, desde donde partía hace unos años hasta donde estamos hoy, podemos decir que ha dado un salto de gigante. Uno de los hitos más relevantes es que se puede especificar textos para que aparezcan dentro de la imagen. Sin ser perfecto todavía, somos capaces de conseguir resultados más que aceptables, como por ejemplo, generar una imagen de una pizarra con el texto “LOVE”.

Imágenes generadas por Midjourney v6.0 con el prompt: [

Un hito que se alcanzó hace unos meses es la generación de imágenes donde las manos de las personas no parecieran propias de un mutante. A día de hoy, en las últimas versiones de Midjourney se cubre bastante bien la generación de manos de personas, aunque te puedes encontrar algún patinazo que otro.

En próximas versiones de Midjourney (y en otras herramientas similares como Leonardo.ai) es probable que las imágenes que obtengamos mejoren en los pequeños detalles para darle realismo, pero tendrán que ir superando otra serie de problemas que voy a ir detallando en este artículo.

Generación de objetos realistas de tamaño pequeño

Midjourney tiene un gran contexto de conceptos del mundo en que vivimos, pudiendo representar de manera coherente y próximo a nuestras expectativas en cuanto a identificar aquello que hayamos descrito en el prompt. Si le damos como entrada “black podenco jumping on a green sofa”, él va a devolver unas imágenes de un perro de la raza podenco, pelaje de color negro y con una pose de salto encima de un sofá, siendo un resultado muy satisfactorio.

Imagen generada por Midjourney v6.0 con el prompt: [

¿Pero qué pasa si le pedimos que represente imágenes de objetos pequeños? En este caso, podemos encontrar una extensa lista de objetos que también va a saber cómo representar sin muchos problemas, como puede ser un ordenador portátil, una tablet, un teléfono, un reloj de pulsera o un tenedor, pero hay muchos en los que va a ser complicado que la imagen corresponda a un objeto real como un yoyó, una peonza o un destornillador.

No hay ninguna lista que podamos tomar de referencia, pero hay un truco que podría utilizarse para saber cómo de maduro está Midjourney a la hora de generar imágenes realistas de ese objeto: si solo se escribe el objeto que queremos generar sin dar más contexto y obtenemos una imagen con mucho detalle, podemos trabajar en el prompt para conseguir un resultado deseado. En el caso contrario, por mucho que lo intentes, va a ser muy difícil. Lo ilustro con dos ejemplos:

  • Pasar de una llave inglesa ficticia a una realista: al igual que con el destornillador, si le pedimos que nos genere una llave inglesa vamos a tener imágenes con muchos detalles realistas. Si solo especificamos “wrench”, podemos tener resultados que más o menos se ajusten a la realidad, pero serán una mezcla entre diferentes herramientas (martillo, palanca, destornillador, …). En cambio, si indicamos en el prompt “wrench for screws”, la mayoría de resultados se parecerán más al concepto de llave inglesa que tenemos.

Imágenes generadas por Midjourney v6.0. Prompts: (1)(2)[

  • Pura fantasía de yoyó: aunque con una peonza pasa más o menos lo mismo, con un yoyó vamos a tener resultados más vistosos. Si el prompt tiene “yoyo”, vamos a encontrarnos resultados muy creativos pero no vamos a ver nada parecido a un yoyó. Podemos intentar acotar el contexto indicando “metal yoyo” pero lo que obtendremos serán imágenes de objetos metálicos cuya coincidencia con el yoyó es que tienen forma redonda y alguna cuerda, pareciendo un colgante o algún tipo de componente mecánico.

Imágenes generadas por Midjourney v6.0. Prompts: (1)(2)[

El problema se agrava si le pedimos que genere imágenes de personas interactuando con esos objetos. Por ejemplo, con el prompt “kid reading a book” tendremos imágenes realistas de niños leyendo un libro como si fueran fotografías reales. En cambio, con el prompt “child playing with a metal yo-yo”, obtendremos imágenes de niños interactuando con bolas de metal.

La cultura americana condiciona el uso de prompts

Si todavía no has tenido la oportunidad de trastear con Midjourney, debes saber que se usa el inglés como idioma para escribir los prompts. Pero hay palabras en Inglaterra que no significan lo mismo que en Estados Unidos, como el término football: con el prompt “football player” obtendremos un jugador de fútbol americano (rugby) y con el prompt “soccer player” obtendremos un jugador de balompié (conocido popularmente como fútbol en EU).

Imágenes generadas por Midjourney v6.0. Prompts: (1)(2)[

Otro tema cultural que cambia de un país a otro es la gastronomía. Aquí podemos tener suerte de que un plato nacional como la paella o tortilla española es conocido igual en EEUU, por lo que las imágenes pueden pasar por una foto hecha a un plato de comida en España. Los problemas vendrán cuando queramos una imagen de un cochinillo asado tal y como podríamos comerlo en Segovia.

Imágenes generadas por Midjourney v6.0. Prompts: (1)[

Algo parecido nos ocurre con vestidos tradicionales de una región como un vestido de boda. En este caso es más sencillo obtener algo parecido a vestidos de boda que podrían usarse en Japón o Vietnam, pero es muy creativo si pedimos el vestido para España, Portugal o Italia.

Imágenes generadas por Midjourney v6.0 con el prompt: [

Recomendaciones para solventar estos problemas

Lo primero, es una tecnología que se reinventa cada poco tiempo, por lo que aquellos resultados que no puedes conseguir hoy igual los puedes obtener dentro de 3 meses. No desistas de usar la IA para generar imágenes y puedes enfocarte en aquellos aspectos que cubre con creces. Hay mucho que aprender y con el uso puedes ir encontrando algunas soluciones para ir superando las dificultades que te encuentres.

Lo segundo, Midjourney no ofrece la posibilidad de entrenar tus propios modelos a día de hoy, pero Leonardo.ai sí. Si necesitas generar imágenes muy específicas de algún tipo de objeto o incluso estilo visual, se puede trabajar en generar un modelo reentrenando uno existente a partir de tus propias imágenes. Un ejemplo práctico puede ser la generación de un modelo para gafas de una marca, reentrenando un modelo con fotografías de gafas de esa marca.

Y por último, participar en una comunidad donde los miembros puedan compartir sus truquillos y experiencias ayudará a encontrar soluciones o atajos que en otro lugar no se puedan dar.

Acabo de ver que las leyendas de las imágenes aparecen cortadas, si os interesa saber los prompts que he usado los puedo dejar en comentarios

Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas