La nueva serie o1 de modelos de OpenAI ya "razonan", ¿estamos a las puertas de la inteligencia artificial general (#AGI)?
En la edición de esta semana, exploramos la nueva serie de modelos o1 de OpenAI, que (re)introduce un nuevo paradigma en IA: el "razonamiento", aprendemos qué es el entrenamiento por refuerzo y qué implicaciones tiene este tipo de uso de la IA en el sector farmacéutico y médico
1️⃣ Examinemos qué hace que o1 (o proyecto #Strawberry) sea único y qué le convierte en un 'game-changer'
¿o1, o1-mini, o1-preview? ¿Qué son? ¿Por qué hay 3?
o1 es un modelo de aprendizaje automático que utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta
o1 utiliza un proceso de razonamiento paralelo de varios pasos antes de generar una respuesta, a diferencia de los LLM tradicionales que solo pueden producir un único rastro de razonamiento
El proceso de pensamiento es comparable a pedirle a GPT-4o que “lo piense paso a paso”. Agregar esta breve línea a sus indicaciones se denomina indicación de “cadena de pensamiento” (CoT, o "Chain of Thought" en inglés). Sabemos que la indicación de CoT permite resolver problemas más complejos
La diferencia con GPT-4o + estimulación CoT es que o1 utiliza aprendizaje de refuerzo a gran escala para refinar su proceso de pensamiento, lo que le permite adaptar sus pasos de razonamiento a cualquier tarea
2️⃣ ¿Qué es el aprendizaje por refuerzo?
El aprendizaje por refuerzo es una técnica avanzada de IA en la que un sistema aprende a tomar mejores decisiones mediante prueba y error, recibiendo retroalimentación de sus acciones, de forma muy similar a cómo una empresa ajusta sus estrategias en función de las respuestas del mercado para maximizar el rendimiento y alcanzar objetivos
Este enfoque de aprendizaje por refuerzo permite que el modelo identifique y rectifique errores en una cadena de pensamiento, lo que da como resultado un "razonamiento" más resistente. Examina cada paso del proceso de pensamiento para mejorarlo durante el entrenamiento, en lugar de evaluar únicamente la respuesta al final, cuando la respuesta está completamente generada, como ocurre con el entrenamiento LLM estándar
3️⃣Aplicaciones del aprendizaje por refuerzo en el ámbito sanitario
Regímenes de tratamiento dinámico
El aprendizaje por refuerzo se utiliza habitualmente en el ámbito sanitario para crear regímenes de tratamiento dinámicos (DTR, por sus siglas en inglés) para pacientes con enfermedades crónicas. Estas reglas, basadas en el historial médico y las enfermedades, incluyen el tipo de tratamiento, las dosis de los medicamentos y el horario de las citas. El aprendizaje por refuerzo automatiza la toma de decisiones, lo que mejora la atención crítica y el tratamiento de enfermedades crónicas como el cáncer y el VIH
Diagnóstico médico automatizado
Los diagnósticos médicos son tareas complejas que requieren que los médicos asocien la información del paciente al perfil correcto de la enfermedad. Los pacientes con diagnóstico erróneo representan el 10 % de las muertes en Estados Unidos y 40 mil millones de dólares en indemnizaciones en 25 años. Los algoritmos de aprendizaje automático son vitales para mejorar el diagnóstico, pero las técnicas de aprendizaje en tiempo real son prometedoras debido a que requieren menos datos etiquetados
Recomendado por LinkedIn
Programación y asignación de recursos de atención de salud
El sistema de atención médica, como cualquier otra empresa de servicios, utiliza herramientas de asignación y programación de recursos como el aprendizaje por refuerzo para una asignación y programación óptimas de recursos en función de las tendencias estacionales, la dotación de personal y los niveles de pacientes hospitalizados
Descubrimiento, diseño y desarrollo de fármacos
El descubrimiento tradicional de fármacos es costoso y lleva mucho tiempo, y menos del 10 % de los compuestos pasan a la fase I de los ensayos. Para mejorar las tasas de éxito, los investigadores utilizan cada vez más métodos de aprendizaje automático y computación cuántica para automatizar y mejorar las hipótesis de diseño de fármacos y la selección de compuestos. Estas técnicas permiten comparar moléculas a mayor escala
📣¿Qué ejemplos de algoritmos de IA que utilizan aprendizaje por refuerzo su usan en el ámbito farmacéutico y médico?
Aquí os dejamos el ejemplo de MCTS y su uso para el descubrimiento de nuevos fármacos
4️⃣¿Qué desventajas puede tener este tipo de modelos en el sector salud y farmacéutico?
Observabilidad parcial
En medicina, no podemos observar todo lo que ocurre en el cuerpo, solo medidas simples como la presión arterial, la temperatura y el SO2. Estas señales no son la verdad fundamental sobre el paciente. Por ejemplo, en las radiografías de tórax, los médicos pueden proporcionar solo mediciones antes y después, lo que dificulta que los modelos estimen el estado de la enfermedad sin todos los datos disponibles
Reward function
Encontrar una buena 'reward function' (ver el gráfico del principio para entender dónde se sitúa esta función) en el ámbito de la atención sanitaria es un desafío, ya que a menudo se trata de equilibrar la mejora a corto plazo con el éxito a largo plazo. Por ejemplo, las mejoras periódicas de la presión arterial pueden no conducir a mejores resultados en los casos de sepsis. Tener una sola recompensa al final puede crear una secuencia larga sin retroalimentación intermedia, lo que dificulta determinar qué acciones dieron lugar a la recompensa o la penalización
Los modelos de aprendizaje por refuerzo tienen hambre de datos
Los principales avances en aprendizaje profundo se han realizado con años de datos simulados, que son más fáciles de generar mediante simuladores. Sin embargo, los datos para tratamientos específicos suelen ser escasos, requieren mucho esfuerzo para anotarlos y los hospitales y las clínicas se muestran reticentes a compartir sus datos, lo que genera desafíos para las aplicaciones de atención médica
Datos no estacionarios
Los datos de atención médica no son estacionarios y son dinámicos: los síntomas de los pacientes se registran a intervalos inconsistentes y los signos vitales se registran con más frecuencia que otros. Los objetivos del tratamiento pueden cambiar con el tiempo y el enfoque puede pasar de reducir la mortalidad general a reducir la duración de la hospitalización. Además, los virus y las infecciones pueden evolucionar rápidamente, lo que no se observa en los datos de entrenamiento