A Microsoft lançou recentemente um novo sistema de IA chamado MAI-DxO, com o objetivo de aumentar significativamente a precisão no diagnóstico de casos médicos complexos. Segundo informações, a taxa de precisão do sistema é quatro vezes maior que a de médicos experientes, e também consegue reduzir os custos médicos em cerca de 70%. Essa tecnologia foi avaliada por meio de uma nova avaliação padrão, simulando um processo real de diagnóstico passo a passo.
No seu artigo "Diagnóstico Sequencial com Modelos de Linguagem", a equipe de pesquisa descreveu detalhadamente o sistema, afirmando que ele supera significativamente os médicos humanos em termos de precisão e eficiência de custos, especialmente quando se trata de casos desafiadores. Para obter resultados mais reais, a equipe criou o Benchmark de Diagnóstico Sequencial (SDBench). Ao contrário dos testes tradicionais de IA médica, o SDBench não fornece todas as informações de uma só vez, mas simula o processo sequencial das decisões clínicas.
O SDBench baseia-se em 304 casos complexos da revista New England Journal of Medicine. Durante os testes, médicos ou especialistas em diagnóstico de IA recebem primeiro um resumo breve do caso, e depois devem solicitar ativamente mais informações, obtendo dados detalhados por meio de perguntas específicas ou solicitando exames. O sistema utiliza um "modelo de portão" para controlar a divulgação das informações, podendo até gerar resultados sintéticos de certos exames para evitar vazamentos acidentais de dicas.
Na avaliação, os médicos experientes dos Estados Unidos e Reino Unido tiveram uma taxa de precisão de 19,9%, com custo médio de 2963 dólares por caso. Em comparação, o MAI-DxO da Microsoft combinado com o modelo o3 da OpenAI alcançou uma taxa de precisão de 79,9%, com custo médio de 2397 dólares. A principal melhoria do MAI-DxO está na redução significativa dos custos. Embora o modelo o3 tenha atingido uma taxa de precisão máxima de 78,6% nos modelos padrão, seu custo médio foi alto, chegando a 7850 dólares. Já com o diagnóstico realizado pelo MAI-DxO, a taxa de precisão aumentou ligeiramente, enquanto o custo diminuiu quase 70%.
O MAI-DxO melhora seu desempenho simulando uma equipe virtual de médicos. Dentro da equipe, há diferentes papéis: "médico de hipótese", "médico de seleção de testes", "médico de questionamento", "médico de monitoramento de custos" e "médico da lista de verificação". Essa estrutura visa impedir que o sistema fique preso prematuramente a uma hipótese específica.
No entanto, os pesquisadores também reconhecem algumas limitações. O SDBench baseia-se apenas em casos ensináveis complexos e não reflete a distribuição de doenças comuns encontradas na prática diária. A estimativa de custos é muito genérica e não considera diversos fatores do mundo real. Além disso, os médicos participantes são médicos de família, que normalmente encaminham casos complexos para especialistas, e sua avaliação não utilizou recursos externos.
Principais pontos:
🔍 A taxa de precisão do sistema MAI-DxO é quatro vezes maior que a dos médicos experientes, com uma redução de custos de quase 70%.
💡 O teste SDBench simula um processo de diagnóstico passo a passo real, melhorando a precisão por meio da solicitação dinâmica de informações.
🩺 Os estudos destacam o desempenho superior do sistema, mas também apontam limitações e desafios relacionados aos casos complexos.