Hugging Face atualiza as regras de avaliação do ranking, IA entra em nova fase de avaliação

AIbase

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Jun 27, 2024

274

O Hugging Face atualizou seu Open LLM Leaderboard, uma mudança que terá um impacto significativo no cenário do desenvolvimento de inteligência artificial de código aberto. Essa melhoria chega em um momento crucial do desenvolvimento da IA, pois pesquisadores e empresas estão enfrentando uma aparente estagnação no aumento do desempenho dos modelos de linguagem grandes (LLMs).

O Open LLM Leaderboard é uma ferramenta de referência usada para medir o progresso dos modelos de linguagem de IA. Agora, reestruturado, ele oferece avaliações mais rigorosas e detalhadas. O lançamento dessa atualização ocorre em um momento em que a comunidade de IA observa uma desaceleração na velocidade das melhorias inovadoras, apesar do lançamento contínuo de novos modelos.

A atualização dessa classificação introduziu métricas de avaliação mais complexas e fornece análises detalhadas para ajudar os usuários a entender quais testes são mais relevantes para aplicações específicas. Essa iniciativa reflete a crescente conscientização na comunidade de IA de que meros números de desempenho não são suficientes para avaliar a utilidade de um modelo no mundo real.

A classificação atualizada introduziu métricas de avaliação mais complexas e fornece análises detalhadas para ajudar os usuários a entender quais testes são mais relevantes para aplicações específicas. Isso reflete a crescente conscientização da comunidade de IA: meros números de desempenho não são suficientes para avaliar a utilidade de um modelo no mundo real. Mudanças-chave na classificação:

- Introdução de conjuntos de dados mais desafiadores, testando raciocínio avançado e aplicação de conhecimento do mundo real.

- Implementação de avaliação de diálogos de várias rodadas, avaliando de forma mais abrangente a capacidade de conversação dos modelos.

- Expansão da avaliação de idiomas além do inglês, para melhor representar as capacidades globais de IA.

- Adição de testes de seguimento de instruções e aprendizado com poucos exemplos, cada vez mais importantes para aplicações práticas.

Essas atualizações visam criar um conjunto de referência mais abrangente e desafiador, diferenciando melhor os modelos de melhor desempenho e identificando áreas para melhorias.

Destaques:
⭐ O Hugging Face atualizou o Open LLM Leaderboard, fornecendo avaliações mais rigorosas e detalhadas para resolver o problema da desaceleração no aumento do desempenho dos modelos de linguagem grandes.
⭐ A atualização inclui a introdução de conjuntos de dados mais desafiadores, a implementação de avaliação de diálogos de várias rodadas e a expansão da avaliação de idiomas além do inglês, visando criar uma referência mais abrangente e desafiadora.
⭐ O lançamento do LMSYS Chatbot Arena complementa o Open LLM Leaderboard, destacando uma abordagem de avaliação em tempo real e dinâmica, trazendo novas perspectivas para a avaliação de IA.

Diário de IA: Primeiros funcionários digitais de IA no mundo; Claude Opus4.1 nascido; DeepMind do Google lança modelo mundial Genie 3

1.Claude Opus4.1 tem 74.5% em programação e 98.76% em segurança. 2.OpenAI lançou GPT-OSS para instalação local. 3.Google Genie3 gera 3D em 720P em tempo real. 4.Gemini adicionou criação de livros em chinês. 5.ElevenLabs lançou gerador de música comercial. 6.Baidu lançou primeiros funcionários digitais globais. 7.OpenAI pode valer US$500 bilhões. 8.Vinsoo lançou ferramenta de programação multiagente. 9.Tencent iniciou recrutamento e treino em IA. ....

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Hugging Face atualiza as regras de avaliação do ranking, IA entra em nova fase de avaliação

AIbase

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Diário de IA: Primeiros funcionários digitais de IA no mundo; Claude Opus4.1 nascido; DeepMind do Google lança modelo mundial Genie 3

Nova parceira de dança da IA de Jay Chou: parceria entre a Unitree Technology e a Star Legend gera discussão

Tencent se une à Fundação Open Atoms para iniciar a Terceira Competição de Software Livre, com prêmios no valor de 1 milhão de yuans voltados para tecnologias avançadas de IA

Musk anuncia que o Grok2 será aberto na próxima semana, a xAI continua investindo no ecossistema de código aberto

Liu Renlei da NetEase Youdao: A Youdao lançará em meados de agosto um novo produto de caneta de resolução de problemas de IA

Recrutamento da Tencent para 2026 começa oficialmente, será lançado o programa de estágio de produtor de produtos de IA

Fundador da geração Z lança ferramenta de desenvolvimento de equipe de IA na nuvem Vinsoo, a colaboração entre múltiplos agentes inteligentes reconfigura o modelo de programação

A OpenAI está negociando uma transação de venda de ações com valor estimado em 500 bilhões de dólares

Primeira revelação do GPT-5 testado, revelando o legado misterioso da equipe de super alinhamento!

630 milhões de usuários escolheram o plug-in de IA! Como os aplicativos tradicionais podem aproveitar para criar uma segunda linha de crescimento