Recientemente, OpenAI lanzó un marco de evaluación de código abierto llamado HealthBench, diseñado para medir el rendimiento y la seguridad de los modelos de lenguaje grande (LLMs) en escenarios médicos reales. El desarrollo de este marco contó con el apoyo de 262 médicos de 60 países y 26 especialidades médicas, con el objetivo de superar las deficiencias de los estándares de evaluación existentes, especialmente en aplicaciones prácticas, verificación por expertos y cobertura diagnóstica.
Los estándares actuales de evaluación de IA médica suelen depender de formas estrechas y estructuradas, como exámenes de opción múltiple. Aunque estas formas son útiles en una evaluación inicial, no capturan plenamente la complejidad y las sutilezas de las interacciones clínicas reales. HealthBench, por otro lado, adopta un enfoque más representativo que incluye 5000 conversaciones multirroudas entre modelos y usuarios comunes o profesionales médicos. Cada conversación termina con una pregunta del usuario y las respuestas del modelo se evalúan según criterios específicos redactados por médicos.
El marco de evaluación de HealthBench se divide en siete temas clave, incluidos derivaciones urgentes, salud global, tareas de datos sanitarios, búsqueda de contexto, comunicación dirigida, profundidad en las respuestas y reacciones ante situaciones inciertas. Cada tema representa diferentes desafíos en la toma de decisiones médicas e interacciones con el usuario. Además de la evaluación estándar, OpenAI lanzó dos variantes:
1. HealthBench Consensus: Se centra en 34 estándares validados por médicos para reflejar aspectos clave del comportamiento del modelo, como sugerir atención de emergencia o buscar más información de contexto.
2. HealthBench Hard: Un subconjunto más desafiante que contiene 1000 conversaciones seleccionadas para probar las capacidades de los modelos líderes actuales.
OpenAI evaluó varios modelos, incluidos GPT-3.5Turbo, GPT-4o, GPT-4.1 y el modelo o3 actualizado. Los resultados mostraron un avance significativo: GPT-3.5 obtuvo un 16%, GPT-4o un 32% y o3 un 60%. En particular, el modelo GPT-4.1nano, más pequeño y de menor costo, superó a GPT-4o mientras reducía los costos de inferencia en 25 veces.
Los resultados también mostraron variaciones en el rendimiento del modelo en diferentes temas y dimensiones de evaluación. Las derivaciones urgentes y la comunicación dirigida fueron áreas relativamente fuertes, mientras que la búsqueda de contexto y la integridad enfrentaron mayores desafíos. OpenAI comparó las respuestas generadas por el modelo con las de los médicos y descubrió que los médicos no asistidos tienden a generar respuestas con puntuaciones más bajas, pero lograron progresar al trabajar con borradores generados por modelos, especialmente versiones anteriores.
HealthBench también incluye mecanismos para evaluar la consistencia del modelo, asegurando la confiabilidad de los resultados. Una metaevaluación realizada por OpenAI con más de 60,000 ejemplos anotados indica que el evaluador predeterminado GPT-4.1 mostró un rendimiento comparable al de los médicos individuales en la mayoría de los temas, lo que demuestra su potencial como evaluador consistente.
Proyecto: https://github.com/openai/simple-evals
Lo más destacado:
- 🩺 OpenAI lanzó HealthBench, enfocado en la evaluación de modelos de lenguaje grande en el ámbito médico, con la participación y validación de 262 médicos.
- 🔍 La evaluación de HealthBench abarca siete temas clave, utilizando 5000 conversaciones reales para ofrecer un análisis detallado del comportamiento del modelo.
- 📊 Los resultados de la evaluación muestran diferencias claras en el rendimiento entre modelos; GPT-4.1nano destacó con un costo bajo, demostrando el potencial de los modelos como herramientas clínicas.