La nueva serie o1 de modelos de OpenAI ya "razonan", ¿estamos a las puertas de la inteligencia artificial general (#AGI)?

La nueva serie o1 de modelos de OpenAI ya "razonan", ¿estamos a las puertas de la inteligencia artificial general (#AGI)?

En la edición de esta semana, exploramos la nueva serie de modelos o1 de OpenAI, que (re)introduce un nuevo paradigma en IA: el "razonamiento", aprendemos qué es el entrenamiento por refuerzo y qué implicaciones tiene este tipo de uso de la IA en el sector farmacéutico y médico

1️⃣ Examinemos qué hace que o1 (o proyecto #Strawberry) sea único y qué le convierte en un 'game-changer'

¿o1, o1-mini, o1-preview? ¿Qué son? ¿Por qué hay 3?

  • o1 mini es la versión pequeña y eficiente. Fue entrenada específicamente para contenido técnico como matemáticas y otros temas académicos y, por lo tanto, logra mejores resultados que los demás en algunos puntos de referencia
  • o1 preview es el punto de control inicial (durante el entrenamiento) del modelo o1 real, más grande (y mejorado), que saldrá a la venta a finales de este año

o1 es un modelo de aprendizaje automático que utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta

o1 utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta, a diferencia de los LLM tradicionales que solo pueden producir un único rastro de razonamiento

El proceso de pensamiento es comparable a pedirle a GPT-4o que “lo piense paso a paso”. Agregar esta breve línea a sus indicaciones se denomina indicación de “cadena de pensamiento” (CoT, o "Chain of Thought" en inglés). Sabemos que la indicación de CoT permite resolver problemas más complejos

La diferencia con GPT-4o + estimulación CoT es que o1 utiliza aprendizaje de refuerzo a gran escala para refinar su proceso de pensamiento, lo que le permite adaptar sus pasos de razonamiento a cualquier tarea

2️⃣ ¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es una técnica avanzada de IA en la que un sistema aprende a tomar mejores decisiones mediante prueba y error, recibiendo retroalimentación de sus acciones, de forma muy similar a cómo una empresa ajusta sus estrategias en función de las respuestas del mercado para maximizar el rendimiento y alcanzar objetivos

Este enfoque de aprendizaje por refuerzo permite que el modelo identifique y rectifique errores en una cadena de pensamiento, lo que da como resultado un "razonamiento" más resistente. Examina cada paso del proceso de pensamiento para mejorarlo durante el entrenamiento, en lugar de evaluar únicamente la respuesta al final, cuando la respuesta está completamente generada, como ocurre con el entrenamiento LLM estándar

  • Agente: en aprendizaje por refuerzo, un agente es la entidad que interactúa con el entorno. El agente toma decisiones y realiza acciones para lograr un objetivo determinado
  • Entorno: el entorno representa el contexto externo en el que opera el agente. Puede ser cualquier cosa, desde un mundo físico (como un robot que navega por una habitación) hasta un entorno virtual (como un videojuego o un mundo simulado). El entorno proporciona retroalimentación al agente en forma de recompensas y transiciones de estado
  • Estado: un estado es una representación de la situación actual o la configuración del entorno. Contiene toda la información relevante necesaria para que el agente tome decisiones. Los estados pueden ser discretos o continuos, según el problema
  • Acción: una acción es una elección realizada por el agente que afecta el estado del entorno. Las acciones pueden ser discretas (por ejemplo, moverse hacia la izquierda o hacia la derecha) o continuas (por ejemplo, controlar la velocidad de un motor)
  • Recompensa: una recompensa es una señal numérica que el entorno proporciona al agente después de cada acción realizada. Cuantifica lo buena o mala que fue la acción del agente en un estado particular. El objetivo del agente es aprender una política que maximice la recompensa acumulada a lo largo del tiempo

3️⃣Aplicaciones del aprendizaje por refuerzo en el ámbito sanitario

Regímenes de tratamiento dinámico

El aprendizaje por refuerzo se utiliza habitualmente en el ámbito sanitario para crear regímenes de tratamiento dinámicos (DTR, por sus siglas en inglés) para pacientes con enfermedades crónicas. Estas reglas, basadas en el historial médico y las enfermedades, incluyen el tipo de tratamiento, las dosis de los medicamentos y el horario de las citas. El aprendizaje por refuerzo automatiza la toma de decisiones, lo que mejora la atención crítica y el tratamiento de enfermedades crónicas como el cáncer y el VIH

Diagnóstico médico automatizado

Los diagnósticos médicos son tareas complejas que requieren que los médicos asocien la información del paciente al perfil correcto de la enfermedad. Los pacientes con diagnóstico erróneo representan el 10 % de las muertes en Estados Unidos y 40 mil millones de dólares en indemnizaciones en 25 años. Los algoritmos de aprendizaje automático son vitales para mejorar el diagnóstico, pero las técnicas de aprendizaje en tiempo real son prometedoras debido a que requieren menos datos etiquetados

Programación y asignación de recursos de atención de salud

El sistema de atención médica, como cualquier otra empresa de servicios, utiliza herramientas de asignación y programación de recursos como el aprendizaje por refuerzo para una asignación y programación óptimas de recursos en función de las tendencias estacionales, la dotación de personal y los niveles de pacientes hospitalizados

Descubrimiento, diseño y desarrollo de fármacos

El descubrimiento tradicional de fármacos es costoso y lleva mucho tiempo, y menos del 10 % de los compuestos pasan a la fase I de los ensayos. Para mejorar las tasas de éxito, los investigadores utilizan cada vez más métodos de aprendizaje automático y computación cuántica para automatizar y mejorar las hipótesis de diseño de fármacos y la selección de compuestos. Estas técnicas permiten comparar moléculas a mayor escala

📣¿Qué ejemplos de algoritmos de IA que utilizan aprendizaje por refuerzo su usan en el ámbito farmacéutico y médico?

Aquí os dejamos el ejemplo de MCTS y su uso para el descubrimiento de nuevos fármacos

4️⃣¿Qué desventajas puede tener este tipo de modelos en el sector salud y farmacéutico?

Observabilidad parcial

En medicina, no podemos observar todo lo que ocurre en el cuerpo, solo medidas simples como la presión arterial, la temperatura y el SO2. Estas señales no son la verdad fundamental sobre el paciente. Por ejemplo, en las radiografías de tórax, los médicos pueden proporcionar solo mediciones antes y después, lo que dificulta que los modelos estimen el estado de la enfermedad sin todos los datos disponibles

Reward function

Encontrar una buena 'reward function' (ver el gráfico del principio para entender dónde se sitúa esta función) en el ámbito de la atención sanitaria es un desafío, ya que a menudo se trata de equilibrar la mejora a corto plazo con el éxito a largo plazo. Por ejemplo, las mejoras periódicas de la presión arterial pueden no conducir a mejores resultados en los casos de sepsis. Tener una sola recompensa al final puede crear una secuencia larga sin retroalimentación intermedia, lo que dificulta determinar qué acciones dieron lugar a la recompensa o la penalización

Los modelos de aprendizaje por refuerzo tienen hambre de datos

Los principales avances en aprendizaje profundo se han realizado con años de datos simulados, que son más fáciles de generar mediante simuladores. Sin embargo, los datos para tratamientos específicos suelen ser escasos, requieren mucho esfuerzo para anotarlos y los hospitales y las clínicas se muestran reticentes a compartir sus datos, lo que genera desafíos para las aplicaciones de atención médica

Datos no estacionarios

Los datos de atención médica no son estacionarios y son dinámicos: los síntomas de los pacientes se registran a intervalos inconsistentes y los signos vitales se registran con más frecuencia que otros. Los objetivos del tratamiento pueden cambiar con el tiempo y el enfoque puede pasar de reducir la mortalidad general a reducir la duración de la hospitalización. Además, los virus y las infecciones pueden evolucionar rápidamente, lo que no se observa en los datos de entrenamiento



Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas