De acordo com os resultados mais recentes do concurso ARC, as diferenças na performance e no custo entre os modelos de IA mainstream são significativas. No teste de referência ARC-AGI-2, que avalia a capacidade geral de raciocínio dos modelos, o GPT-5 (Avançado) obteve uma pontuação de 9,9%, com um custo de 0,73 dólares por tarefa. Já o Grok4 (Pensador) obteve um desempenho ligeiramente melhor, com uma taxa de acerto de 16%, mas seu custo também é maior, variando entre 2 e 4 dólares por tarefa. Isso indica que, em tarefas de raciocínio complexas, o Grok4 tem vantagem em desempenho, mas sua relação custo-benefício é muito pior do que a do GPT-5.
Comparação de desempenho e custo dos principais modelos de linguagem no benchmark ARC-AGI. | Imagem: ARC-AGI
No teste ARC-AGI-1, que exige requisitos relativamente baixos, o Grok4 liderou novamente com uma taxa de acerto de 68%, ligeiramente superior aos 65,7% do GPT-5. Apesar da maior taxa de acerto, o custo de aproximadamente 1 dólar por tarefa do Grok4 é muito maior do que os 0,51 dólares do GPT-5, tornando o GPT-5 mais rentável nesse teste. No entanto, a xAI ainda pode ajustar os preços para reduzir essa diferença.
Além disso, o relatório mencionou a versão leve do GPT-5. O GPT-5Mini obteve pontuações de 54,3% e 4,4% nos testes AGI-1 e AGI-2, respectivamente, com custos de 0,12 e 0,20 dólares. O modelo ainda menor, o GPT-5Nano, alcançou 16,5% (0,03 dólares) no AGI-1 e 2,5% (0,03 dólares) no AGI-2.
Resultados do teste do Grok4, GPT-5 e variantes de modelos menores no ARC-AGI-1. | Imagem: Concurso ARC
É notável que, no teste ARC-AGI-1, o modelo o3-preview, lançado em dezembro de 2024, liderou com uma incrível taxa de acerto de quase 80%, mas seu custo superou significativamente os concorrentes. Embora a OpenAI não tenha mencionado o concurso ARC em sua demonstração do GPT-5, segundo o The Information, a empresa provavelmente reduziu significativamente as capacidades do o3-preview para se adaptar às versões subsequentes de chat.
Além desses testes de benchmark, o ARC-AGI-3 também está em andamento, exigindo que os modelos resolvam tarefas em ambientes interativos semelhantes a jogos por meio de tentativas repetidas. Embora os humanos possam lidar facilmente com isso, a maioria dos agentes de IA ainda enfrenta dificuldades em jogos de quebra-cabeça visuais.