Microsoft lanzó recientemente un nuevo sistema de inteligencia artificial MAI-DxO, diseñado para mejorar significativamente la precisión en el diagnóstico de casos médicos complejos. Según se informa, la tasa de precisión del sistema es cuatro veces mayor que la de los médicos con experiencia, y puede reducir los costos médicos en casi un 70%. Esta tecnología fue evaluada mediante una nueva prueba estándar, que simula un proceso real de diagnóstico paso a paso.
El equipo de investigación detalló este sistema en su artículo "Diagnóstico secuencial utilizando modelos de lenguaje", afirmando que supera significativamente a los médicos humanos en términos de precisión y eficacia económica al enfrentarse a casos desafiantes. Para obtener resultados de prueba más reales, el equipo creó el benchmark de diagnóstico secuencial (SDBench). A diferencia de las pruebas tradicionales de inteligencia artificial médica, SDBench no proporciona toda la información de una vez, sino que simula el proceso secuencial de toma de decisiones clínicas.
SDBench utiliza casos tomados de 304 casos complejos de la revista New England Journal of Medicine. En la prueba, los médicos o los diagnósticos de inteligencia artificial reciben primero un resumen breve del caso, y luego deben solicitar activamente más información, obteniendo datos detallados mediante preguntas específicas o solicitando exámenes. El sistema controla la difusión de la información mediante un "modelo de puerta", e incluso puede generar resultados sintéticos de ciertos exámenes para evitar revelar accidentalmente pistas.
En la prueba, la tasa de precisión de 21 médicos experimentados de Estados Unidos y Reino Unido fue del 19,9%, con un costo promedio por caso de 2963 dólares. Por otro lado, el sistema MAI-DxO de Microsoft combinado con el modelo o3 de OpenAI logró un 79,9% de precisión, con un costo promedio de 2397 dólares. La principal mejora del MAI-DxO radica en la reducción significativa de los costos. Aunque el modelo o3 alcanzó el 78,6% de precisión más alta en modelos estándar, su costo promedio fue de 7850 dólares. Sin embargo, con el diagnóstico realizado por MAI-DxO, la precisión aumentó ligeramente, pero el costo disminuyó casi un 70%.
MAI-DxO mejora su rendimiento simulando un equipo virtual de médicos. El equipo está compuesto por un "médico de suposiciones", un "médico de selección de pruebas", un "médico de cuestionamiento", un "médico de monitoreo de costos" y un "médico de lista de verificación". Esta estructura tiene como objetivo evitar que el sistema fije prematuramente una hipótesis.
No obstante, los investigadores también reconocieron algunos factores limitantes. SDBench se basa únicamente en casos didácticos complejos y no refleja la distribución de enfermedades comunes en la atención diaria. El cálculo de los costos fue solo una estimación aproximada, sin considerar diversos factores del mundo real. Además, los médicos participantes eran médicos de atención primaria, quienes normalmente remiten casos complejos a especialistas, y sus evaluaciones no utilizaron recursos externos.
Puntos clave:
🔍 La tasa de precisión del sistema MAI-DxO es cuatro veces la de los médicos experimentados, y los costos se reducen en casi un 70%.
💡 La prueba SDBench simula un proceso de diagnóstico paso a paso real, mejorando la precisión mediante la solicitud dinámica de información.
🩺 Los estudios señalan que el rendimiento del sistema es excelente, pero existen limitaciones y desafíos en cuanto a casos complejos.