Em um novo desafio de programação com inteligência artificial, os resultados geraram amplo destaque. O Prêmio K, organizado pelo Laude Institute, recentemente anunciou seu primeiro vencedor, e surpreendentemente, o programador brasileiro Eduardo Rocha de Andrade, que ganhou US$ 50.000 por acertar apenas 7,5% das perguntas no concurso, causou alarme sobre o estado atual da inteligência artificial.

O Prêmio K foi lançado por Andy Konwinski, co-fundador da Databricks e da Perplexity, com o objetivo de impulsionar o desempenho dos modelos de IA em problemas reais de programação. Konwinski disse: "Estamos felizes em criar uma referência realmente desafiadora." Em comparação com os sistemas de teste comuns, o Prêmio K é mais rigoroso, utilizando um método chamado "não contaminado", garantindo que a capacidade do modelo não seja influenciada pelo conjunto de treinamento.

Concurso de robôs Respostas Matemática

Nota da fonte da imagem: A imagem foi gerada por IA, fornecida pela Midjourney

Diferente de outros benchmarks como o SWE-Bench, o Prêmio K não permite que os modelos vejam questões específicas antes de submeterem suas respostas, mas utiliza novas perguntas extraídas do GitHub após a data limite. Embora muitas ferramentas de programação baseadas em IA tenham surgido, esse novo desafio revelou as limitações atuais dos modelos. O desempenho top do Prêmio K contrasta fortemente com os 75% obtidos no SWE-Bench, levantando dúvidas sobre possíveis problemas de contaminação nos benchmarks.

Konwinski está confiante no futuro e prometeu oferecer um prêmio de US$ 1 milhão se um modelo de código aberto conseguir obter mais de 90% de pontuação no teste. Ele espera que esse desafio sirva como um alerta para toda a indústria, fazendo com que todos reconheçam que ainda há muito espaço para melhorias nas tecnologias atuais de IA. Ele completou: "Se nem chegarmos a 10%, a realidade será dura."

Essa competição gerou debates intensos na indústria sobre os padrões de avaliação de IA. Muitos pesquisadores acreditam que projetos como o Prêmio K são essenciais para resolver os problemas de avaliação da IA. Sayash Kapoor, pesquisador da Universidade de Princeton, afirmou: "Precisamos de novos testes para avaliar os benchmarks existentes. Sem tais experimentos, não podemos identificar as causas dos problemas."

O Prêmio K estabelece novos padrões de desafio para os modelos de IA e oferece à indústria uma oportunidade de reflexão, incentivando a revisão das tecnologias atuais de inteligência artificial e sua viabilidade aplicada.