Expl-AI-n: Aguja en el pajar (Chatgpt,Claude 2.1 y Mixtral)
Este artículo, inspirado en el reporte de Greg Kamradt y Evan Jolley, se centra en la evaluación de sistemas de recuperación de información en modelos de lenguaje grande utilizando la prueba de la "Aguja en el Pajar".
La recuperación aumentada por generación (RAG, por sus siglas en inglés) es una metodología clave que sustenta muchas de las aplicaciones de modelos de lenguaje grande (LLM) en el mundo real hoy en día. Desde compañías que generan titulares hasta desarrolladores independientes que resuelven problemas para pequeñas empresas, la RAG ha demostrado ser esencial para el desarrollo y despliegue de estos sistemas. Un aspecto crucial de este proceso es la evaluación de los sistemas RAG, y una nueva aproximación innovadora a este desafío es la prueba de la "Aguja en el Pajar".
¿Qué es la Prueba de la Aguja en el Pajar?
La prueba de la "Aguja en el Pajar" fue ideada por Greg Kamradt y se discute en detalle en sus publicaciones en X y YouTube. Este test evalúa el desempeño de los sistemas RAG a través de diferentes tamaños de contexto. Funciona insertando información específica y dirigida (la "aguja") dentro de un cuerpo de texto más grande y complejo (el "pajar"). El objetivo es evaluar la capacidad de un modelo de lenguaje para identificar y utilizar esta información específica en medio de una gran cantidad de datos.
Metodología de la Prueba
En los sistemas RAG, la ventana de contexto a menudo está repleta de información. Grandes fragmentos de contexto devueltos por una base de datos vectorial se mezclan con instrucciones para el modelo de lenguaje, plantillas y cualquier otra cosa que pueda existir en el prompt. La prueba de la Aguja en el Pajar evalúa las capacidades de un LLM para identificar detalles específicos en medio de este desorden.
Proceso de Evaluación
La prueba se ejecuta insertando una afirmación específica en diferentes profundidades dentro de fragmentos de longitud variable. Los modelos se evalúan para determinar si pueden recuperar y utilizar esta afirmación específica. Se realizaron múltiples iteraciones de esta prueba en varios modelos de lenguaje principales, como ChatGPT-4 de OpenAI y Claude 2.1 de Anthropic.
Resultados de la Prueba
ChatGPT-4:
Claude 2.1:
Recomendado por LinkedIn
Mixtral:
Análisis del Reporte
El análisis del reporte se enfoca en comparar el rendimiento de los diferentes modelos bajo la metodología de la Aguja en el Pajar. Aquí se presentan los hallazgos principales:
ChatGPT-4
El modelo ChatGPT-4 mostró ser el líder en la capacidad de recuperación de información, pero también presentó una disminución en la precisión a medida que aumentaba la longitud del contexto. La inserción de la aguja en diferentes posiciones dentro del texto demostró que el modelo tiene una tendencia a olvidar o pasar por alto información crítica si no está situada estratégicamente.
Claude 2.1
Claude 2.1 tuvo un rendimiento inicial bajo, con una precisión de recuperación del 27%. Sin embargo, después de ajustar el prompt para guiar mejor al modelo, su precisión aumentó significativamente al 98%. Esto resalta la importancia de un prompting efectivo para maximizar el rendimiento del modelo. Claude 2.1 mostró una notable mejora al seguir instrucciones específicas para encontrar y devolver la información relevante.
Mixtral
Los modelos Mixtral, aunque más pequeños en comparación con ChatGPT-4 y Claude 2.1, demostraron un rendimiento superior a lo esperado. La arquitectura de Mixture of Experts (MOE) parece ser especialmente eficaz para las evaluaciones de recuperación de información, superando incluso a modelos más grandes en ciertas pruebas.
Conclusiones
La prueba de la Aguja en el Pajar es una forma ingeniosa de cuantificar la capacidad de un LLM para analizar contextos y encontrar la información necesaria. En nuestra investigación, ChatGPT-4 se destacó como el líder de la industria en esta área, mientras que Claude 2.1 mostró una mejora significativa con ajustes en el prompting. Finalmente, los modelos Mixtral demostraron ser prometedores, superando las expectativas iniciales.
Esta metodología no solo proporciona una forma robusta de evaluar los sistemas RAG, sino que también destaca la importancia de ajustes precisos en los prompts para mejorar el rendimiento de los modelos de lenguaje grande.