Recientemente, la Universidad de Stanford publicó una evaluación integral de modelos AI de atención médica clínica. DeepSeek R1 destacó entre los nueve modelos avanzados, logrando un 66% de tasa de victorias y un puntaje promedio macro de 0.75, convirtiéndose en el ganador. Lo destacado de esta evaluación es que no solo se centra en preguntas tradicionales de exámenes médicos de licencia, sino que también profundiza en los escenarios diarios del trabajo de los médicos clínicos, proporcionando una evaluación más práctica.
El equipo de evaluación creó un marco de evaluación integral llamado MedHELM, que incluye 35 pruebas base que cubren 22 subcategorías de tareas médicas. Este marco fue validado por 29 médicos practicantes de 14 especialidades médicas para garantizar su razonabilidad y utilidad. Los resultados finales revelaron el excelente rendimiento de DeepSeek R1, seguido de cerca por o3-mini y Claude3.7Sonnet.
Específicamente, DeepSeek R1 demostró un desempeño sólido en cada una de las pruebas base, con una desviación estándar de la tasa de victorias del 0.10, lo que indica su estabilidad en diferentes pruebas. Por otro lado, o3-mini destacó en las pruebas base de soporte a la toma de decisiones clínicas, obteniendo un 64% de tasa de victorias y un promedio macro más alto de 0.77, quedando en segundo lugar. Otros modelos como Claude3.5 y 3.7Sonnet obtuvieron tasas de victorias del 63% y 64%, respectivamente.
Es importante destacar que esta evaluación también introdujo innovadormente el método de jurado de grandes modelos de lenguaje (LLM-jury) para evaluar los resultados, mostrando una alta consistencia con las puntuaciones otorgadas por médicos clínicos, lo que prueba su efectividad. Además, el equipo de investigación realizó un análisis costo-beneficio, descubriendo que el costo de uso de los modelos de inferencia es relativamente alto, mientras que los costos de los modelos no inferenciales son más bajos, adecuados para usuarios con diferentes necesidades.
Esta evaluación no solo proporciona datos valiosos para el desarrollo de la IA médica, sino que también abre más posibilidades y flexibilidad para la práctica clínica futura.