La nueva serie o1 de modelos de OpenAI ya "razonan", ¿estamos a las puertas de la inteligencia artificial general (#AGI)?

Miguel Gómez Martín

Data Strategy, AI & Governance Manager 📊 Aprende a cómo transformar el sector farmacéutico y médico a través de la newsletter de GM Innova

Fecha de publicación: 23 sept 2024

En la edición de esta semana, exploramos la nueva serie de modelos o1 de OpenAI, que (re)introduce un nuevo paradigma en IA: el "razonamiento", aprendemos qué es el entrenamiento por refuerzo y qué implicaciones tiene este tipo de uso de la IA en el sector farmacéutico y médico

1️⃣ Examinemos qué hace que o1 (o proyecto #Strawberry) sea único y qué le convierte en un 'game-changer'

¿o1, o1-mini, o1-preview? ¿Qué son? ¿Por qué hay 3?

o1 mini es la versión pequeña y eficiente. Fue entrenada específicamente para contenido técnico como matemáticas y otros temas académicos y, por lo tanto, logra mejores resultados que los demás en algunos puntos de referencia
o1 preview es el punto de control inicial (durante el entrenamiento) del modelo o1 real, más grande (y mejorado), que saldrá a la venta a finales de este año

o1 es un modelo de aprendizaje automático que utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta

o1 utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta, a diferencia de los LLM tradicionales que solo pueden producir un único rastro de razonamiento

El proceso de pensamiento es comparable a pedirle a GPT-4o que “lo piense paso a paso”. Agregar esta breve línea a sus indicaciones se denomina indicación de “cadena de pensamiento” (CoT, o "Chain of Thought" en inglés). Sabemos que la indicación de CoT permite resolver problemas más complejos

La diferencia con GPT-4o + estimulación CoT es que o1 utiliza aprendizaje de refuerzo a gran escala para refinar su proceso de pensamiento, lo que le permite adaptar sus pasos de razonamiento a cualquier tarea

2️⃣ ¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es una técnica avanzada de IA en la que un sistema aprende a tomar mejores decisiones mediante prueba y error, recibiendo retroalimentación de sus acciones, de forma muy similar a cómo una empresa ajusta sus estrategias en función de las respuestas del mercado para maximizar el rendimiento y alcanzar objetivos

Este enfoque de aprendizaje por refuerzo permite que el modelo identifique y rectifique errores en una cadena de pensamiento, lo que da como resultado un "razonamiento" más resistente. Examina cada paso del proceso de pensamiento para mejorarlo durante el entrenamiento, en lugar de evaluar únicamente la respuesta al final, cuando la respuesta está completamente generada, como ocurre con el entrenamiento LLM estándar

Agente: en aprendizaje por refuerzo, un agente es la entidad que interactúa con el entorno. El agente toma decisiones y realiza acciones para lograr un objetivo determinado
Entorno: el entorno representa el contexto externo en el que opera el agente. Puede ser cualquier cosa, desde un mundo físico (como un robot que navega por una habitación) hasta un entorno virtual (como un videojuego o un mundo simulado). El entorno proporciona retroalimentación al agente en forma de recompensas y transiciones de estado
Estado: un estado es una representación de la situación actual o la configuración del entorno. Contiene toda la información relevante necesaria para que el agente tome decisiones. Los estados pueden ser discretos o continuos, según el problema
Acción: una acción es una elección realizada por el agente que afecta el estado del entorno. Las acciones pueden ser discretas (por ejemplo, moverse hacia la izquierda o hacia la derecha) o continuas (por ejemplo, controlar la velocidad de un motor)
Recompensa: una recompensa es una señal numérica que el entorno proporciona al agente después de cada acción realizada. Cuantifica lo buena o mala que fue la acción del agente en un estado particular. El objetivo del agente es aprender una política que maximice la recompensa acumulada a lo largo del tiempo

3️⃣Aplicaciones del aprendizaje por refuerzo en el ámbito sanitario

Regímenes de tratamiento dinámico

El aprendizaje por refuerzo se utiliza habitualmente en el ámbito sanitario para crear regímenes de tratamiento dinámicos (DTR, por sus siglas en inglés) para pacientes con enfermedades crónicas. Estas reglas, basadas en el historial médico y las enfermedades, incluyen el tipo de tratamiento, las dosis de los medicamentos y el horario de las citas. El aprendizaje por refuerzo automatiza la toma de decisiones, lo que mejora la atención crítica y el tratamiento de enfermedades crónicas como el cáncer y el VIH

Diagnóstico médico automatizado

Los diagnósticos médicos son tareas complejas que requieren que los médicos asocien la información del paciente al perfil correcto de la enfermedad. Los pacientes con diagnóstico erróneo representan el 10 % de las muertes en Estados Unidos y 40 mil millones de dólares en indemnizaciones en 25 años. Los algoritmos de aprendizaje automático son vitales para mejorar el diagnóstico, pero las técnicas de aprendizaje en tiempo real son prometedoras debido a que requieren menos datos etiquetados

📣¿Qué ejemplos de algoritmos de IA que utilizan aprendizaje por refuerzo su usan en el ámbito farmacéutico y médico?

Aquí os dejamos el ejemplo de MCTS y su uso para el descubrimiento de nuevos fármacos

4️⃣¿Qué desventajas puede tener este tipo de modelos en el sector salud y farmacéutico?

Observabilidad parcial

En medicina, no podemos observar todo lo que ocurre en el cuerpo, solo medidas simples como la presión arterial, la temperatura y el SO2. Estas señales no son la verdad fundamental sobre el paciente. Por ejemplo, en las radiografías de tórax, los médicos pueden proporcionar solo mediciones antes y después, lo que dificulta que los modelos estimen el estado de la enfermedad sin todos los datos disponibles

Reward function

Encontrar una buena 'reward function' (ver el gráfico del principio para entender dónde se sitúa esta función) en el ámbito de la atención sanitaria es un desafío, ya que a menudo se trata de equilibrar la mejora a corto plazo con el éxito a largo plazo. Por ejemplo, las mejoras periódicas de la presión arterial pueden no conducir a mejores resultados en los casos de sepsis. Tener una sola recompensa al final puede crear una secuencia larga sin retroalimentación intermedia, lo que dificulta determinar qué acciones dieron lugar a la recompensa o la penalización

Los modelos de aprendizaje por refuerzo tienen hambre de datos

Los principales avances en aprendizaje profundo se han realizado con años de datos simulados, que son más fáciles de generar mediante simuladores. Sin embargo, los datos para tratamientos específicos suelen ser escasos, requieren mucho esfuerzo para anotarlos y los hospitales y las clínicas se muestran reticentes a compartir sus datos, lo que genera desafíos para las aplicaciones de atención médica

Datos no estacionarios

Los datos de atención médica no son estacionarios y son dinámicos: los síntomas de los pacientes se registran a intervalos inconsistentes y los signos vitales se registran con más frecuencia que otros. Los objetivos del tratamiento pueden cambiar con el tiempo y el enfoque puede pasar de reducir la mortalidad general a reducir la duración de la hospitalización. Además, los virus y las infecciones pueden evolucionar rápidamente, lo que no se observa en los datos de entrenamiento

GM Innova

695 seguidores

+ Suscribirse

Inicia sesión para ver o añadir un comentario.

Ver todo

La nueva serie o1 de modelos de OpenAI ya "razonan", ¿estamos a las puertas de la inteligencia artificial general (#AGI)?

Miguel Gómez Martín

Data Strategy, AI & Governance Manager 📊 Aprende a cómo transformar el sector farmacéutico y médico a través de la newsletter de GM Innova

1️⃣ Examinemos qué hace que o1 (o proyecto #Strawberry) sea único y qué le convierte en un 'game-changer'

o1 es un modelo de aprendizaje automático que utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta

2️⃣ ¿Qué es el aprendizaje por refuerzo?

3️⃣Aplicaciones del aprendizaje por refuerzo en el ámbito sanitario

Regímenes de tratamiento dinámico

Diagnóstico médico automatizado

Recomendado por LinkedIn

Programación y asignación de recursos de atención de salud

Descubrimiento, diseño y desarrollo de fármacos

📣¿Qué ejemplos de algoritmos de IA que utilizan aprendizaje por refuerzo su usan en el ámbito farmacéutico y médico?

4️⃣¿Qué desventajas puede tener este tipo de modelos en el sector salud y farmacéutico?

GM Innova

695 seguidores

Más artículos de este autor

Otros usuarios han visto

RAG: La Clave para Potenciar la Inteligencia Artificial con Conocimiento Externo

Creando nuestro propio Chatbot con IA

Magic School AI: tu herramienta multiusos con IA para la educación

Explorando la IA Generativa: Un Viaje al Futuro de la Tecnología

Lo que los cursos en linea de AI no te cuentan (desafíos para la vida real). Parte II

IBM Watson vuelve a sorprender. Un robot fue asistente de un profesor 6 meses sin que sus alumnos lo supiesen.

Llegó la hora del Aprendizaje de Máquina?

Con la etno-minera y minería de datos encontramos las interpretaciones de la IA en el personalized learning.

Evolución de la Taxonomía de Bloom en la era de la IA generativa

Razonamiento avanzado de la IA: Explicación de las cadenas de pensamiento

Ver temas

1️⃣ Examinemos qué hace que o1 (o proyecto #Strawberry) sea único y qué le convierte en un 'game-changer'

o1 es un modelo de aprendizaje automático que utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta

2️⃣ ¿Qué es el aprendizaje por refuerzo?

3️⃣Aplicaciones del aprendizaje por refuerzo en el ámbito sanitario

Regímenes de tratamiento dinámico

Diagnóstico médico automatizado

Recomendado por LinkedIn

Programación y asignación de recursos de atención de salud

Descubrimiento, diseño y desarrollo de fármacos

📣¿Qué ejemplos de algoritmos de IA que utilizan aprendizaje por refuerzo su usan en el ámbito farmacéutico y médico?

4️⃣¿Qué desventajas puede tener este tipo de modelos en el sector salud y farmacéutico?

GM Innova

695 seguidores

💊 ¿Qué es la minería de procesos? ¿Y cómo puedo usarla en el sector salud y farmacéutico?

27 oct 2024

📣📣📣 ¿Quieres saber qué son los gemelos digitales y cómo se usan en la industria médica y farmacéutica?

1 oct 2024

📣📣📣 Volvemos con una nueva edición de la newsletter con MÁS CONTENIDO, MÁS ALCANCE Y MÁS ENFOQUE

11 sept 2024

📣📣📣NUEVO EPISODIO DEL PODCAST, aprendemos de la IA generativa, reembolso de las terapias digitales, Google crea Tx-LLM, y ¡MUCHO MÁS!

25 jun 2024

💡💡💡Integración de la IA en el NHS, los descubrimientos médicos imprevistos de la IA, prueba rápida de ITU, principales países con patentes en IA

18 jun 2024

📣📣📣 No te pierdas nada de la Newsletter más completa: artículos científicos IA + formación en salud digital de GM Academy + noticias más relevantes

11 jun 2024

📣📣📣 Nuevos modelos de LLMS Y GPTs, píldoras formativas sobre IA, lanzamiento de un nuevo episodio del pódcast, informes de la UE y mucho más

2 jun 2024

🧿🧿🧿Un Diccionario de la IA, pasos para desarrollar un algoritmo, uso de la IA en las Big Pharma, novedades de las DTx y ¡MUCHO MÁS!

26 may 2024

💡💡💡Lanzamiento de Chat GPT-4o, MRSegmentator, MedVersa, IA en cirugía, MED-Gemini Y ¡MUCHO MÁS!

19 may 2024

📣📣📣Usos de la IA en distintos ámbitos clínicos, qué es el aprendizaje federado, novedades de Google, Neuralink, la FDA, ¡Y MUCHO MÁS!

12 may 2024

Otros usuarios han visto

RAG: La Clave para Potenciar la Inteligencia Artificial con Conocimiento Externo

Creando nuestro propio Chatbot con IA

Magic School AI: tu herramienta multiusos con IA para la educación

Explorando la IA Generativa: Un Viaje al Futuro de la Tecnología

Lo que los cursos en linea de AI no te cuentan (desafíos para la vida real). Parte II

IBM Watson vuelve a sorprender. Un robot fue asistente de un profesor 6 meses sin que sus alumnos lo supiesen.

Llegó la hora del Aprendizaje de Máquina?

Con la etno-minera y minería de datos encontramos las interpretaciones de la IA en el personalized learning.

Evolución de la Taxonomía de Bloom en la era de la IA generativa

Razonamiento avanzado de la IA: Explicación de las cadenas de pensamiento

Ver temas