Recentemente, a Universidade de Stanford publicou uma avaliação abrangente dos modelos de IA clínicos. O DeepSeek R1 se destacou entre nove modelos avançados, alcançando uma taxa de vitória de 66% e uma pontuação macro-média de 0.75. O destaque desta avaliação está na sua capacidade de não apenas focar nas questões tradicionais de exames de licenciamento médico, mas também nos cenários do dia a dia dos médicos, oferecendo uma avaliação mais prática.

O time de avaliação desenvolveu um quadro de avaliação integrado chamado MedHELM, que inclui 35 benchmarks, cobrindo 22 subcategorias de tarefas médicas. Este quadro foi validado por 29 médicos em prática de 14 especialidades médicas para garantir sua razoabilidade e utilidade. Os resultados finais revelaram o desempenho superior do DeepSeek R1, seguido pelo o3-mini e o Claude3.7Sonnet.

image.png

Especificamente, o DeepSeek R1 demonstrou um desempenho consistente em todas as avaliações benchmark, com um desvio padrão de taxa de vitória de apenas 0.10, indicando sua estabilidade em diferentes testes. Já o o3-mini se destacou na categoria de suporte à decisão clínica, obtendo uma taxa de vitória de 64% e a maior pontuação macro-média de 0.77, ficando em segundo lugar. Outros modelos como o Claude3.5 e 3.7Sonnet obtiveram taxas de vitória de 63% e 64%, respectivamente.

image.png

O que merece destaque é que esta avaliação inovou ao adotar o método de júri de modelos de linguagem grande (LLM-jury) para avaliar os resultados, mostrando uma alta concordância com as classificações dos médicos clínicos, provando sua eficácia. Além disso, a equipe de pesquisa realizou uma análise de custo-benefício, observando que os custos de uso dos modelos de inferência são relativamente altos, enquanto os não inferenciais são mais baratos, adequados para diferentes tipos de usuários.

A avaliação não apenas forneceu dados valiosos para o desenvolvimento da IA médica, mas também trouxe mais possibilidades e flexibilidade para futuras práticas clínicas.