No mundo em rápida evolução da inteligência artificial, avaliar e comparar efetivamente a capacidade de diferentes modelos de IA generativos tornou-se um desafio significativo. Os métodos tradicionais de benchmark de IA estão mostrando suas limitações, levando os desenvolvedores de IA a explorar novas abordagens inovadoras.
Recentemente, um site chamado "Minecraft Benchmark" (abreviado como MC-Bench) surgiu, com a distinção de usar o jogo de construção de mundo aberto da Microsoft, Minecraft, como plataforma. Os usuários podem comparar as criações geradas por modelos de IA com base em prompts para avaliar seu desempenho. Surpreendentemente, o criador desta plataforma inovadora é um estudante do 12º ano.
Minecraft se transforma em uma arena de competição de IA
O site MC-Bench oferece uma maneira intuitiva e divertida de avaliar modelos de IA. Os desenvolvedores inserem diferentes prompts nos modelos de IA participantes, que então geram construções no Minecraft. Os usuários podem votar nas construções sem saber qual modelo de IA criou cada uma, escolhendo a que melhor se adapta ao prompt e a que consideram melhor. Somente após a votação, os usuários podem ver o "criador" por trás de cada construção. Este mecanismo de "votação cega" visa refletir de forma mais objetiva a capacidade real de geração de modelos de IA.
Adi Singh afirma que a escolha do Minecraft como plataforma de benchmark não se deve apenas à popularidade do jogo - é o jogo eletrônico mais vendido de todos os tempos. Mais importante, sua ampla popularidade e a familiaridade com seu estilo visual permitem que mesmo aqueles que nunca jogaram possam julgar relativamente facilmente qual abacaxi feito de blocos parece mais realista. Ele acredita que "o Minecraft torna mais fácil para as pessoas verem o progresso [do desenvolvimento da IA]", e essa avaliação visual é mais convincente do que indicadores de texto puros.
Foco em funcionalidades
Atualmente, o MC-Bench realiza principalmente tarefas de construção relativamente simples, como pedir a modelos de IA que escrevam código para criar estruturas de jogo com base em prompts como "Rei do Gelo" ou "uma cabana tropical encantadora em uma praia intocada". Essencialmente, é um benchmark de programação, mas sua inteligência reside no fato de que os usuários não precisam analisar códigos complexos; eles podem julgar a qualidade da obra com base em efeitos visuais intuitivos, aumentando significativamente o envolvimento do projeto e o potencial de coleta de dados.
A filosofia de design do MC-Bench é permitir que o público em geral perceba mais intuitivamente o nível de desenvolvimento da tecnologia de IA. "A classificação atual coincide muito bem com minha experiência pessoal usando esses modelos, ao contrário de muitos benchmarks de texto puro", diz Singh. Ele acredita que o MC-Bench pode fornecer uma referência valiosa para empresas relevantes, ajudando-as a determinar se a direção de seu desenvolvimento de IA está correta.
Embora o MC-Bench tenha sido iniciado por Adi Singh, ele também reúne um grupo de colaboradores voluntários. Vale ressaltar que várias empresas líderes de IA, incluindo Anthropic, Google, OpenAI e Alibaba, forneceram subsídios para o projeto para usar seus produtos para executar benchmarks. No entanto, o site do MC-Bench declara que essas empresas não estão envolvidas no projeto de nenhuma outra forma.
Singh também tem grandes expectativas para o futuro do MC-Bench. Ele diz que as construções simples atuais são apenas um ponto de partida e que no futuro poderá expandir para tarefas mais longas e orientadas a objetivos. Ele acredita que os jogos podem ser um meio seguro e controlável para testar a capacidade de "raciocínio de agente" da IA, algo difícil de realizar na vida real, tornando-os mais vantajosos para testes.
Uma nova e inovadora abordagem para avaliação de IA
Além do MC-Bench, outros jogos, como Street Fighter e Pictionary, também foram usados como benchmarks experimentais de IA, refletindo a natureza altamente especializada do próprio benchmark de IA. As avaliações padronizadas tradicionais costumam ter uma "vantagem em casa", pois os modelos de IA são otimizados durante o treinamento para certos tipos de problemas, especialmente aqueles que exigem memorização ou inferência básica. Por exemplo, o GPT-4 da OpenAI obteve uma pontuação excelente de 88% no exame LSAT, mas não consegue distinguir quantos "R"s existem na palavra "morango".
O Claude 3.7 Sonnet da Anthropic atingiu uma precisão de 62,3% em benchmarks padronizados de engenharia de software, mas seu desempenho em Pokémon é inferior ao da maioria das crianças de cinco anos.
O surgimento do MC-Bench oferece uma perspectiva nova e mais fácil de entender para avaliar a capacidade dos modelos de IA generativos. Ao utilizar uma plataforma de jogos familiar ao público, ele transforma as complexas capacidades tecnológicas da IA em comparações visuais intuitivas, permitindo que mais pessoas participem da avaliação e compreensão da IA. Embora o valor prático desta abordagem de avaliação ainda esteja em discussão, ela certamente nos oferece uma nova janela para observar o desenvolvimento da IA.