📰 🤖 I.A News. I-JEPA🧩 de Meta será lanzada en abierto 🔓
Imagen Contenido sintético SDXL.

📰 🤖 I.A News. I-JEPA🧩 de Meta será lanzada en abierto 🔓


Meta, la firma dueña de Facebook e Instagram, ha revelado I-JEPA (Image-based Joint- Embedding Predictive Architecture), un nuevo enfoque para la generación de imágenes. Posiblementem un nuevo enfoque multitarea.

Contrariamente a modelos de IA generativos como DALL-E o Midjourney, I-JEPA, completa imágenes parcialmente inacabadas, realizando "abstracciones" de las mismas.

Yann LeCun, (uno de los padrinos de la I.A), científico jefe de IA en Meta, explica que esta metodología ayuda a evitar fallos habituales de otros sistemas de IA, como añadir dedos extras a una mano.

ASPECTOS TÉCNICOS

Este es un resumen del paper donde lo explican bastante bien. Aunque haremos una entrada esta semana para explicar bien cómo llegamos de un predictor de parches según contexto a la idea de sentido común.


Y resumimos lo más importante

  1. Es una arquitectura que no se basa en los principios de los modelos generativos (pixel a pixel). Viene a sumarse otras arquitecturas para el aprendizaje autosupervisado (JEA Joint-Embedding Architecture, Generativas y JEPA Joint-Embedding Predictive Architecture) Usa un transformador de visión (Vision Transformers VT) para codificar el contexto, un codificador destino y un predictor. La parte más importante de todo esto es que es aprendizaje auto supervisado de representaciones visuales.
  2. El objetivo, es predecir las representaciones de varios "bloques objetivo" en una imagen a partir de un único "bloque de contexto". Todos estos bloques son aleatorios. Se hace uso de mascaras y de lo que se denomina conocimiento previo del mundo para obtener una representación semántica. El bloque de contexto es una región aleatoria enmascarada al igual que los bloques objetivos.
  3. Esta arquitectura, permite eliminar los datos aumentados en el entrenamiento. Son variaciones artificiales de la imagen para que aprenda a generalizar mejor y evite memorizar, pero también pueden agregar sesgos, distorsiones o ruido.
  4. Promete ser muy eficiente, (y escalable) porque usa menos recursos informáticos en la inferencia (habrá que verlo) y también su entrenamiento ha sido significativamente más corto que en los modelos actuales. Según el paper "Preentrenar un ViT-H/14 en ImageNet requiere menos de 1200 horas de GPU, que es más de 2,5 veces más rápido que un ViTS/16 preentrenado con iBOT y más de 10 veces más eficiente que un ViT-H/14 preentrenado con MAE".
  5. Meta continúa apostando por el código abierto, por lo que I-JEPA estará disponible de forma libre para acelerar la innovación. Recientemente, también han incorporado capacidades de IA generativa en productos como Instagram, así que a poder cambiar la fotito con texto y esas cosas.

Sobre el enfoque:

  1. I-JEPA es Self-Supervised Learning. En general es un método para el aprendizaje que no se puede apoyar ni en datos etiquetados (por humanos) ni en pares de imágenes (que le ayuden a encontrar la solución), se tiene que basar en sí misma. De alguna manera es un aprendizaje sin supervisar que se convierte en supervisado porque tiene que ser el propio modelo el haga sus relaciones para el objetivo.
  2. I-JEPA tiene una arquitectura, en donde hay una correlación entre los pesos de la representación de destino y los pesos del codificador de contexto que se actualizan a través de un promedio para una misma imagen. Es decir que aquí es donde la red aprende las relaciones que hay entre el bloque contexto (la imagen de entrada) y los bloques objetivos (la imagen que tenías que predecir).
  3. En cada lote los parches que enmascaran la imagen de cada entrada se van a ir cambiando aleatoriamente, es decir se va a mover el parche del contexto y se van a mover los parches objetivos y así una y otra vez se van ajustando los pesos. De alguna manera si pudiéramos hacer un sumatorio de todo lo que el modelo ha conseguido ver durante todo el entrenamiento, completa la imagen y ha comprendido sus relaciones entre las partes.


En resumen el paper se presenta como un sistema simple, de autocompletado de imágenes ,cuyo mayor logro es ahorrarse los datos de data augmentation.

El entrenamiento requiere unas 16 x A100. (Cada A100 ronda los 11.000 , 12.000 euros).



Inicia sesión para ver o añadir un comentario.

Más artículos de Alicia Colmenero Fernández

Otros usuarios han visto

Ver temas