Recentemente, a OpenAI lançou um framework de avaliação de código aberto chamado HealthBench, projetado para medir o desempenho e a segurança dos grandes modelos linguageiros (LLMs) em cenários médicos reais. O desenvolvimento desse framework contou com o apoio de 262 médicos de 60 países e 26 especialidades médicas, visando superar as limitações dos padrões de avaliação existentes, especialmente no que diz respeito às aplicações práticas, validação por especialistas e cobertura diagnóstica.

QQ_1747118377933.png

Os padrões atuais de avaliação de IA médica geralmente dependem de formatos restritos e estruturados, como exames de múltipla escolha. Embora esses métodos sejam úteis na avaliação inicial, eles não capturam plenamente a complexidade e os detalhes das interações clínicas reais. O HealthBench adota uma abordagem mais representativa, incluindo 5.000 rodadas de conversas multirodadas entre modelos e usuários comuns ou profissionais médicos. Cada conversa termina com uma pergunta do usuário e a resposta do modelo é avaliada com base em critérios específicos criados por médicos.

QQ_1747118245591.png

O framework de avaliação do HealthBench está dividido em sete temas-chave, incluindo encaminhamento de emergência, saúde global, tarefas de dados de saúde, busca de contexto, comunicação direcionada, profundidade de resposta e reação em situações incertas. Cada tema representa diferentes desafios nas decisões médicas e nas interações com os usuários. Além da avaliação padrão, a OpenAI também lançou duas variantes:

1. HealthBench Consensus: enfatiza 34 normas validadas por médicos, refletindo aspectos críticos do comportamento do modelo, como recomendar cuidados de emergência ou buscar mais contexto.

2. HealthBench Hard: um subconjunto mais desafiador, contendo 1.000 conversas selecionadas, projetado para testar a capacidade dos modelos de vanguarda atual.

A avaliação foi realizada em diversos modelos, incluindo o GPT-3.5Turbo, GPT-4o, GPT-4.1 e o modelo atualizado o3. Os resultados mostraram avanços significativos: o GPT-3.5 teve uma pontuação de 16%, o GPT-4o obteve 32%, enquanto o o3 alcançou 60%. Especificamente, o modelo GPT-4.1nano, menor e de baixo custo, superou o GPT-4o, reduzindo os custos de inferência em 25 vezes.

O resultado da avaliação também revelou variações no desempenho dos modelos em diferentes temas e dimensões de avaliação. O encaminhamento de emergência e a comunicação direcionada foram mais fortes, enquanto a busca de contexto e a integridade enfrentaram maiores desafios. A comparação entre a saída do modelo e as respostas de médicos mostrou que os médicos sem assistência geralmente geravam respostas com baixa pontuação, mas conseguiram progresso ao trabalhar com rascunhos gerados pelo modelo, especialmente nos modelos anteriores.

O HealthBench também inclui mecanismos para avaliar a consistência do modelo, garantindo a confiabilidade dos resultados. Uma metaavaliação realizada pela OpenAI com mais de 60.000 exemplos de anotação mostrou que o GPT-4.1, como avaliador padrão, apresentou desempenho equivalente aos médicos individuais em grande parte dos temas, demonstrando seu potencial como avaliador consistente.

Projeto: https://github.com/openai/simple-evals

Foco principal:

- 🩺 A OpenAI lançou o HealthBench, focado na avaliação de grandes modelos linguageiros no campo médico, com a participação e validação de 262 médicos.

- 🔍 A avaliação do HealthBench abrange sete temas-chave, utilizando 5.000 conversas reais para análise detalhada do comportamento do modelo.

- 📊 Os resultados da avaliação mostram diferenças claras no desempenho dos modelos, com o GPT-4.1nano destacando-se com um baixo custo, demonstrando seu potencial como ferramenta clínica.