Avances y actualizaciones importantes en IA: GPT-4o y Google I/O

Avances y actualizaciones importantes en IA: GPT-4o y Google I/O

¡Llegó una nueva edición del newsletter de Wingu ! 👋 Esta vez, con las últimas novedades del mundo de la Inteligencia Artificial (IA) y con el objetivo de explorar cómo estos avances pueden impulsar aún más el impacto social de las organizaciones.

El panorama de la IA está en constante evolución, y recientemente fuimos presentes de dos grandes anuncios que prometen revolucionar la forma en que interactuamos con la tecnología: GPT-4o y Gemini.



Si tenés pocos minutos, un pequeño resumen:

GPT-4o: Es un modelo de lenguaje multilingüe y multimodal de OpenAI, una versión presentada y mejorada de GPT-4, con mayor capacidad para generar texto creativo, traducir idiomas con precisión y responder preguntas complejas de manera informativa en tiempo real, que poco a poco se liberará de manera escalonada para las personas usuarias. Además, GPT-4o presenta mejoras significativas en la comprensión de imágenes y la resolución de problemas lógicos, lo que amplía su potencial de aplicación en diversas áreas.

Gemini: El evento anual de Google, Google I/O, ha presentado una nueva versión de Gemini, su propio modelo de IA que busca competir con GPT-4, con importantes avances, destacando las nuevas capacidades de Gemini, su chatbot conversacional, y el lanzamiento de Gemini Pro y Gemini 1.5 Pro, modelos de lenguaje multimodales con mayor potencia y versatilidad.


¡Ahora sí! Vamos 🏃🏾


GPT-4o: razonar a través de audio, visión y texto en tiempo real.

OpenIA presentó un modelo de lenguaje multimodal que va más allá del texto, abarcando audio y visión en tiempo real. Esta actualización no solo mejora la capacidad de generación de texto creativo y la traducción de idiomas, sino que también permite a GPT-4o "razonar" a través de diferentes modalidades de información, abriendo un mundo de posibilidades.

Disclaimer: Se utiliza el término “razonar", aunque GPT-4o puede realizar tareas que parecen implicar razonamiento, como analizar información y generar respuestas coherentes, pero no posee una verdadera capacidad de razonamiento como la de un ser humano.        

Entre las principales características podemos destacar:

Ahora puede ver, oír y hablar

GPT-4o puede procesar y generar texto, audio y video, lo que lo convierte en una herramienta poderosa para una amplia gama de aplicaciones. A través de un nuevo tipo de interfaz más intuitiva es posible tener una conversación de voz o mostrarle a ChatGPT de qué está hablando.

Imagina tomar una fotografía de un punto de referencia mientras te encuentras de viaje y tener una conversación en vivo sobre datos destacados de esa imagen. O pedirle que te ayude con tareas particulares como planificación, resolución de problemas matemáticos, contexto histórico y más.


Mayor velocidad y eficiencia

GPT-4o es más rápido, más barato y tiene límites de velocidad más altos que GPT-4 Turbo, lo que lo hace más práctico para su uso en aplicaciones del mundo real.

GPT-4o, según las evaluaciones de los puntos de referencia convencionales, ha alcanzado un rendimiento comparable a GPT-4 Turbo en las tareas de texto, razonamiento e inteligencia de codificación. Sin embargo, GPT-4o ha superado las referencias anteriores en lo que respecta a los idiomas múltiples, el audio y la visión.



Tokenización de idiomas

GPT-4o es mejor para entender y responder a entradas de audio y video, lo que lo hace ideal para aplicaciones como chatbots, asistentes virtuales y sistemas de traducción simultánea.

20 idiomas fueron elegidos como representativos de la compresión del nuevo tokenizador en diferentes familias de idiomas, reduciendo los tokens necesarios.

La tokenización permite una codificación más eficiente y flexible del texto, combinando caracteres y pares de caracteres frecuentes en un solo token.        

¿Qué idioma utiliza menos tokens para expresar la misma idea? Actualmente, como te imaginarás, el inglés. Sin embargo, a medida que los modelos de lenguaje avanzados evolucionan con capacidades mejoradas y acceso a una mayor cantidad de datos de entrenamiento, existe la posibilidad de que puedan manejar mejor la complejidad y la riqueza de los idiomas, además del inglés. Esta evolución podría conducir a un cambio en la economía de tokens entre diferentes idiomas, creando un entorno más equilibrado en el que los idiomas menos representados tengan una mayor visibilidad y presencia.

Lanzamiento iterativo

Las capacidades de audio y video estarán disponibles para un pequeño grupo de personas en las próximas semanas y poco a poco se irá liberando para todas las personas usuarias.

Las capacidades de texto e imagen de GPT-4o están comenzando a implementarse hoy en ChatGPT. Desde la empresa afirman que buscan que esté disponible en el nivel gratuito y para quienes poseen Plus con límites de mensajes hasta 5 veces mayores. Quienes se dedican a desarrollar también pueden acceder a GPT-4o en su API como modelo de texto y visión.

Seguridad y limitaciones del modelo

OpenAI asegura que ha implementado medidas de seguridad rigurosas en GPT-4o, como el filtrado de datos de entrenamiento y el entrenamiento posterior para refinar el comportamiento del modelo. Además, se han creado sistemas de seguridad específicos para las salidas de voz, y se han realizado evaluaciones exhaustivas para garantizar que el modelo no supere el riesgo medio en áreas como ciberseguridad, persuasión y autonomía.

A través de pruebas e iteraciones con el modelo, se detectaron varias limitaciones que existen en todas las modalidades del modelo. Un ejemplo a continuación: 0


¿Aún quieres saber un poco más? Descubre la web de lanzamiento por OpenIA.



Google I/O: La era Gemini de la IA

En Google I/O, el gigante tecnológico presentó una serie de innovaciones en inteligencia artificial que prometen transformar la forma en que interactuamos con la tecnología. Su modelo de lenguaje multimodal Gemini, en constante evolución, se posiciona como una herramienta poderosa para procesar y generar texto, imágenes, audio y código, abriendo un sinfín de posibilidades para diversas aplicaciones.

Gemini es un modelo de IA multimodal y contextual que puede comprender y responder a tus preguntas de manera más completa que su predecesor Bard.

La multimodalidad expande significativamente las preguntas que podemos formular y las respuestas que recibiremos. El contexto extenso amplifica las posibilidades al permitirnos incorporar más información, como cientos de páginas de texto, horas de audio, hasta una hora de vídeo o un repositorio completo de código.

Según Google, más de 1500 millones de personas desarrolladoras utilizan los modelos de Gemini en nuestras herramientas para depurar código, adquirir nuevos conocimientos y crear la nueva generación de aplicaciones de IA.

Podemos sintetizar la presentación de innovaciones en: Gemini Pro, Gemini 1.5 Pro, Project Astra, Trillium y Poly Gemma.

¡Veamos qué implica cada una! 👩🏽💻


Gemini Pro y Gemini 1.5 Pro

Ambas, son las versiones más avanzadas del modelo de lenguaje multimodal de Google, Gemini. Ambos modelos pueden procesar texto, imágenes, audio y código, pero Gemini 1.5 Pro tiene una ventana de contexto más amplia, lo que le permite manejar consultas y tareas más complejas, con mayor profundidad y precisión.

Un hito para destacar es su integración con Workspace, lo que permite a cada persona acceder a estas herramientas directamente desde sus aplicaciones como Gmail, Documentos y Hojas de cálculo, entre otros.        

La escalabilidad de la familia Gemini es sorprendente. Sin embargo, Google aún no ha revelado todos los detalles sobre sus capacidades y aplicaciones específicas. Se espera que Gemini Nano esté vinculado a un nuevo modelo de teléfono Pixel.


Project Astra

Project Astra es un agente de IA experimental de Google que busca llevar la potencia de Gemini a los teléfonos inteligentes. Este asistente personal avanzado podrá "razonar", planificar y recordar información para ayudarte a realizar tareas de manera más eficiente, comprendiendo el contexto y anticipando tus necesidades.

Por ejemplo, si le pides a Astra que te ayude a planificar un viaje, no solo te proporcionará información sobre vuelos y hoteles, sino que también te ayudará a crear un itinerario, reservar restaurantes y organizar actividades.

Aún se encuentra en desarrollo y se espera que esté integrado en la app de Gemini a finales de año, pero tiene el potencial de revolucionar la forma en que interactuamos con nuestros dispositivos móviles. Al combinar la potencia de Gemini con la conveniencia de los teléfonos inteligentes, Project Astra podría convertirse en una herramienta indispensable para nuestra vida diaria.


Trillium

La demanda de la industria de computación de tipo Machine Learning se ha multiplicado por 1 millón en los últimos 6 años. Y cada año se multiplica por 10.

El Machine Learning es una rama de la Inteligencia Artificial que permite a las computadoras aprender y mejorar automáticamente a partir de datos, sin ser programadas explícitamente. Utiliza algoritmos para identificar patrones en los datos y hacer predicciones o tomar decisiones basadas en ellos.        

Trillium es la sexta generación de Unidades de Procesamiento Tensorial (TPU) de Google, diseñadas específicamente para acelerar el entrenamiento y la ejecución de modelos de inteligencia artificial. Estos chips personalizados ofrecen un rendimiento y eficiencia energética superiores a las generaciones anteriores, lo que permite a Google impulsar sus avances en IA y ofrecer servicios más rápidos y potentes a sus usuarios.

Una pieza clave en la estrategia de Google para liderar el desarrollo y la aplicación de la inteligencia artificial.


Poly Gemma

Por último, pero no menos importante, Poly Gemma es el primer modelo abierto de lenguaje visual de Google, capaz de comprender y responder preguntas sobre imágenes, generar descripciones detalladas e incluso crear imágenes a partir de texto. Este modelo versátil tiene el potencial de revolucionar la forma en que interactuamos con las imágenes.

Simplemente al tomar una foto de un plato o de un edificio histórico, puedes acceder a información detallada sobre los ingredientes o la arquitectura. Este modelo de inteligencia artificial incluso puede generar descripciones narrativas a partir de una sola imagen, abriendo un abanico de posibilidades para la creación de contenido y la accesibilidad.

Al ser un modelo abierto, Poly Gemma está disponible para que personas investigadoras y desarrolladoras lo utilicen y adapten a sus propias necesidades; fomentando la colaboración y la innovación en el campo de la inteligencia artificial visual.


Revive la presentación del evento en un resumen de 10 minutos con todos los hitos clave.



¿Te han fascinado estos avances? 🫢 También tenemos gran emoción por el futuro que nos espera. Estamos frente a un importante paso en la democratización de la inteligencia artificial, en el que debemos pensar, reflexionar y construir en conjunto como cada vez más personas podrán acceder y utilizar esta tecnología en su vida diaria. Sin dudas este es el desafío más importante, pero realmente creemos que se abre un gran universo de posibilidades para el desarrollo de nuevas aplicaciones y servicios.



Únete a nuestro newsletter para seguir aprendiendo sobre las últimas tendencias en IA y cómo puede utilizarse para generar un impacto positivo en la sociedad.

Si deseas formar parte de esta comunidad y recibir actualizaciones periódicas sobre nuestras actividades, te invitamos a suscribirte. En conjunto podemos seguir construyendo un futuro mejor mediante el uso inteligente y crítico de la tecnología 💙

💌 PD: El newsletter fue creado por nuestro equipo en colaboración con dos herramientas de IA, Gemini Advanced y Chat GPT-3.0.


Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas