¿Por qué no tengo ninguna duda de que el "meta-verso" será una realidad en 2025? : Avances de la IA que van a cambiar el mundo.
Se ha puesto de moda en 2022 el término Metaverso. En parte la semilla de esta moda venía gestándose en el último lustro y ha venido poco a poco instalándose en el subconsciente colectivo. Sin embargo, hay muchas pistas que nos llevan a pensar que el llamado metaverso es la consecuencia inevitable donde acabarán confluyendo las distintas tecnologías que hoy día ya están presentes en nuestras vidas. La realidad virtual hace décadas que nos hacía promesas de mundos inmersivos donde tener experiencias interactivas y enriquecedoras sin movernos de casa. Pero estas aplicaciones se limitaban a reproducir entornos 3d burdos y faltos de detalle que respondían a los movimientos de la cabeza del usuario y permitían una interacción muy básica con un entorno controlado usando un mando o un control equipado con un giroscopio.
Video: Aplicación para probar prendas de forma virtual usando Microsoft Kinect y un modelo de detección rápida de pose.
Las soluciones más caras implementaban una mejor experiencia realizando tracking de manos, lo que permite aplicaciones multitáctiles o el control de varios puntos de interés de manera simultánea, o seguimiento de retina, eso sí, a costa de pesados visores, para que, si por ejemplo el usuario miraba hacia un área concreta esta fuera renderizada con mayor precisión y detalle. Toda esto mejoraba la experiencia, pero la sensación, seguía sin alejarse mucho de lo que se puede experimentar con cualquier videojuego. Los motores de física y renderizado 3d aunque cada vez eran mejores, también dejaban bastante que desear cuando queríamos recrear entornos realistas y movernos por ellos en tiempo real.
Video: Gafas de realidad mixta de Microsoft (HoloLens 2)
Pero en los últimos años algo muy importante ha cambiado y esta llamado a revolucionar las interfaces humano-computador gracias al abaratamiento de los recursos computacionales y la enorme disponibilidad de datos que nos trae el surgimiento de los datos abiertos y la red. Estoy hablando de la Inteligencia Artificial y del momento dulce que se está viviendo en el campo después de su resurgimiento en 2012, gracias a las redes de aprendizaje profundo. La principal característica de estas redes y lo que las diferencia de los anteriores desarrollos en el campo de la IA es que dado un conjunto lo suficientemente grande de datos etiquetados, son capaces de encontrar por si mismas las características y las combinaciones de estas que resultan tener peso predictor para los datos. Y esta característica unida a la gran disponibilidad de datos y a las capacidades escalabilidad de este tipo de algoritmos lo están cambiando absolutamente todo.
Imagen: Esquema general de un algoritmo de deep learning comparado a las técnicas de machine learning convencionales.
Una red convolucional por ejemplo, aprende que buscar un una fotografía para completar una tarea dada. Si esta red es alimentada, por ejemplo con millones de imágenes procedentes de estudios de imagen y casos clínicos, será la red por si misma la que aprenda a diferenciar los signos que hacen indicar la presencia de una determinada enfermedad. De igual forma una R-CNN (Region based Convolutional Network) puede aprender a ver comportamientos extraños en vídeos o a clasificar a personas según su comportamiento sospechoso. Una red autoencoder puede detectar anomalías en el trafico de red de un servidor, avisar de nuevas necesidades de mercado, o avisar con días de antelación de oportunidades de mercado analizando patrones desde cientos de variables. Y una red generativa puede aprender a crear a partir de un volumen de ruido una reconstrucción fotorealista de un espacio o de una superficie a partir de solo un boceto o unas directrices simples.
Imagen: Distintos render fotorealistas creados a partir de un foto de la playa de Maro (Málaga) usando un modelo generativo (GLIDE).
Muchas empresas piensan que cuando Facebook (ahora Meta) habla del Metaverso se refiere a partidas multijugador como en Ready player one, a organizar desfiles de moda en entornos VRMPG (virtual reality massively multiplayer online game) como Second Life, o talvez organizar una sede política (un mural virtual con fotos y vídeos de actos) en Fortnite. Pero lo que Mark Zuckerberg tiene en mente va mucho más allá. Si tienes menos de 40 años seguramente has jugado, visto o sufrido la moda Pokemon Go. Aunque había varios precedentes, este juego fue el que trajo a la realidad aumentada de vuelta a la mente de la gente y aprovechó por primera vez las capacidades gráficas de los móviles y la información que llegaba de sus sensores para crear un juego interactivo donde podías ver como los distintos pokemon aparecían dibujados sobre entornos reales manteniendo la perspectiva y la ilusión de pertenecer a la escena al desplazar la cámara.
Imagen: Fotograma del juego Pokemon Go
¿Que pensarías si te digo, que con la tecnología que hay ahora mismo y con modelos que están disponibles y que cualquiera puede descargar y probar desde Colab sería posible tomar Pokemon Go y por ejemplo hacer que la iluminación de la escena cambiase cuando un enemigo disparase fuego, hacer que un árbol o un arbusto ardiese, que el agua corriese por tu frente si te salpica, crear ondas en el agua y reflexiones e interacciones con las olas y la arena, y todo ello en tiempo real?. Esa, es la magia de los modelos generativos. Ahora visualiza esto aplicado a un partido de futbol donde las camisetas de los jugadores cambien según el diseño de la marca que patrocina los próximos 15 minutos de juego de forma tan realista que no solo se respete la textura de la ropa sino también sus pliegues, las arrugas, la forma del cuerpo, e incluso las sombras o los reflejos de la iluminación. Será tan realista que si un vaso de vidrio cruza de repente la escena todo los efectos de detrás del vaso se verán afectados por la distorsión del vidrio.
Ahora imagina una recreación de ti hecha a partir de las fotos de tu galería móvil tan perfecta que puedas ver hasta el ultimo granito de tu cara, los lunares de tu brazo. Imagina que habla con tu propia voz, tiene tus expresiones faciales, y incluso partes de tu personalidad. Pues, aunque no lo creas, todo esto ya existe y grandes empresas como Nvidia, Intel o Google llevan años perfeccionando tecnologías como la clonación de voz.
Video: Creación de avarates fotorealistas a partir de fotografías.
Recomendado por LinkedIn
Ahora valora lo que sería poder crear una recreación en 3D de tu casa, de tu calle, tu barrio o incluso tu ciudad completa. Una recreación fotorealista que te permita moverte libremente por la escena completando los detalles de los que no tiene información de forma coherente con el conocimiento que tiene la red de los objetos y de las condiciones de lo que vemos. Imagina poder tomar las fotos de Streetview mas recientes y las publicadas en las redes sociales y poder generar una ciudad virtual donde cada comercio, cada farola y cada cartel están justo donde tienen que estar, donde puedes ver el reflejo del sol en los cristales, donde puedes hacer que llueva, nieve, sea otoño o verano, de día o de noche. Bienvenido a NERF.
Video: Generación de mapa tridimensional usando 2.5 millones de imágenes.
¿Quieres más?, si todo lo anterior no te ha hecho pensar que lo que está por venir realmente es más grande que un simple videojuego donde usaremos gafas de realidad virtual, imagina ahora poder asistir a tus clases de la universidad tal y como si estuvieses allí. ¿Eso no parece tan revolucionario verdad?. Claro que no. ¿Pero que tal si te digo que realmente estás en un aula vacía, que la explicación, los movimientos del profesor, lo que ves en la pizarra, nada de eso es real y se está generando para ti?. ¿Y si, pudieses detener la clase, levantar la mano y preguntar al profesor: "perdón, no entiendo de donde sale la derivada de z, como ha llegado ahí a partir de la fórmula que está en los apuntes"?. Esto, puede ser ya una realidad con los nuevos modelos del lenguaje basados en Transformers.
Video: Modelo de clonado de voz de Google Translatotron (2020)
Un Transformer es en esencia una red neuronal profunda que aprende a hablar y conversar por si misma. Su funcionamiento, basado en complejos mecanismos de extracción de patrones gramaticales a distintos niveles guiados por distintas cabezas de atención contextual permite, que si tienes suficientes textos (y eso es algo que tenemos) una red aprenda por si misma un idioma, a crear textos coherentes sobre cualquier tema y en cualquier género literario, a opinar sobre política o ha traducir entre pares de idiomas de las que nadie nunca le ha dado información sobre su gramática. ¿No me crees? Mira lo que es capaz de hacer el modelo GPT3 de OpenIA en acción. El texto en verde ha sido generado por la inteligencia artificial, sin ningún tipo de intervención. Y este es un modelo de 2021 entrenado con texto fundamentalmente en inglés.
Imagen: Prueba de salida generada por el modelo GPT3 para una tarea arbitraria no preentrenada.
Piensa ahora en la evolución que pueden tener estos modelos, en sistemas convesacionales entrenados para usos médicos, de ingeniería, de asistencia a enfermos especiales. El modelo Lambda de Google que hace poco se hizo popular debido a unas polémicas declaraciones es 5 veces mas complejo que GPT3. Estamos hablando de modelos cuyo número de parámetros roza los 500,000 millones. Teniendo en cuenta que el número de conexiones sinápticas en el celebro humano se estima en unas 180,000 millones esto da idea de la complejidad que hemos alcanzado en tan solo una década. Estos modelos son muy versátiles y se adaptan a nuevas tareas gracias al Transfer learning (una cualidad de las redes neuronales profundas que permite la transferencia de conocimiento desde redes previamente entrenadas), aún son demasiado pesados y costosos de reentrenar para permitir su aprendizaje en línea. Pero es cuestión de que mejore la capacidad local de procesamiento en nuestros dispositivos para que veamos modelos que se entrenen por y para nosotros, que sean capaces de contestar correos por nosotros sin que nuestros amigos noten que el correo ha sido generado por un modelo de nosotros. Que puedan aprender de nuestros gustos e interacciones y recordar datos entre sesiones. Que lean nuestro historial médico y puedan explicarnos los resultados de la última analítica. O analicen nuestro trabajo para ayudarnos a redactar una página entera en solo unos segundos.
Video: Recreación de la conversación con el modelo Lambda de Google que fue polémica hace unas semanas.
Y que tal si estos modelos del lenguaje conversacionales se alimentasen no solo de la información de nuestras redes sociales y dispositivos móviles sino que fuesen capaces de vernos, de conocernos como lo haría un amigo o una persona que visita tu casa. ¿Y si tu IA supiese que tienes un gato que se llama Max, que las paredes de tu cuarto son azules o que hoy llevas un jersey amarillo?. Pues aunque parezca increíble, aquí es donde los modelos del lenguaje conocen a las arquitecturas de imagen. Y estos modelos cada vez son más y más comunes y abren increíbles posibilidades. Si aún no te daba algo de miedo, observa la descripción que obtenemos al interrogar a uno de estos modelos con una foto de nuestras mascotas.
Imagen: etiquetado automático de escena usando una red encoder-decoder.
El verdadero Metaverso no trata de realidad virtual, ni parecerá un videojuego, tampoco será alguna clase de juego masivo, sino que estará basado en la realidad aumentada. El Metaverso que se nos viene se trata de extender la realidad utilizando medios digitales. Estará conectada con nosotros, y será persistente. Permitirá visitar ciudades y planificar nuestra visita de forma idéntica a cómo experimentaríamos en persona. Permitirá la telepresencia 2.0, asistir a una formación con alumnos de todo el mundo y poder escucharlos en directo en tu idioma y con sus propias voces, gesticulaciones y expresiones permitiéndonos tener una experiencia humana a pesar de la distancia. Creará nuevas formas de interacción social: imagina crear un grafiti digital o tener tu propia isla virtual frente a la costa de tu ciudad y que todas las noches cuando enciendas las luces todos los que comparten este metaverso puedan ver tu fiesta cuando visiten la recreación de tu ciudad. Imagina poder hablar con avatares virtuales que no sigan ningún guion y puedan crear conversaciones sobre cualquier tema y ser expertos en cualquier área. Visitar la biblioteca de tu universidad y poder hablar con un bibliotecario virtual que te conozca, que sepa lo que estudias, que conozca que libros te llevaste ayer, que recuerde la conversación que tuviste el otro día, que tu hermana se llama Marta y que el lunes la universidad estará cerrada porque es festivo. Ese futuro esta a la vuelta de la esquina.
Video: Concepto distópico de una hiper-realidad intrusiva y poco regulada basada en AR.
Si tienes más de 30 años es posible que recuerdes salir y marcharte de vacaciones o de viaje sin llevar el móvil. En aquellos momentos poca gente habría creído que hoy día muchas investigaciones policiales y crímenes se resuelven con base en el registro de la actividad de los móviles de los propios criminales que no pudieron prescindir de ellos ni siquiera en el momento del delito. Las señales de "a donde vamos" están por todos lados. ¿Alguna vez has pensado por qué funciona Twitch?. La idea de miles personas escuchando un stream sin cortes ni edición durante horas parece algo improbable en nuestro época en el que la gente pierde poco tiempo interesándose en conocer en profundidad a los demás. Pero la razón por la que funciona es porque Twitch es un lugar, es un lugar virtual donde voy a estar mientras trabajo, estudio o descanso. Es el bar de 2022, la sala de reuniones y la biblioteca. Que exista es la prueba de que el metaverso será real, en cuanto la tecnología lo permita, y será el lugar donde pases de ver a tu influencer jugar a la consola, a visitar con el la ciudad. Que sea una distopía aterradora o la próxima gran revolución, depende solo de nosotros.