C-Eval: Avaliando o conhecimento avançado e a capacidade de raciocínio de modelos de linguagem básicos em chinês

机器之心

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Oct 8, 2023

120

C-Eval é um benchmark abrangente que avalia o conhecimento avançado e a capacidade de raciocínio de modelos de linguagem chineses básicos. Ele inclui perguntas de múltipla escolha em quatro níveis de dificuldade, cobrindo 52 diferentes áreas de conhecimento. O banco de questões é derivado de simulados encontrados na internet. A classificação C-Eval mostra o desempenho de modelos de código aberto neste teste. Este benchmark ajuda a selecionar grandes modelos adequados para o campo do processamento de linguagem natural, promovendo o desenvolvimento de aplicações de IA.

Modelos de linguagem grandes em chinês C-Eval Raciocínio de conhecimento

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Huang Renxun se reúne profundamente com o fundador da MiniMax Yan Junjie, novas oportunidades em IA estão chegando!

CEO da NVIDIA, Jensen Huang, encontrou-se com o fundador da MiniMax, Yan Junjie, em Pequim, destacando a rápida inovação chinesa em IA. A MiniMax, com apenas 2 anos, lançou o modelo M1 e a ferramenta Hailuo02, arrecadando US$ 300 milhões e atingindo avaliação de US$ 4 bilhões.....

Jul 18, 2025

Zuckerberg reorganiza a equipe Meta AI, nova estrutura de 3.400 pessoas surge à tona

Meta reestrutura sua arquitetura de IA e cria um laboratório de inteligência superpoderosa, integrando 3.400 funcionários, liderados pelo diretor de IA, Alexandr Wang. A nova estrutura é dividida em quatro equipes: pesquisa básica de AGI, desenvolvimento de produtos de IA (incluindo o assistente Meta AI), laboratório de IA básica liderado por Yann LeCun, e um grupo focado no desenvolvimento do Llama5. A Meta está contratando talentos de empresas como OpenAI e Apple com salários altos, mas isso gerou questionamentos da equipe original sobre os novos colaboradores com salários elevados. Recentemente, dois responsáveis pela IA da Apple se juntaram à empresa.

Jul 18, 2025

O Li Auto recebeu a certificação de segurança de inteligência artificial gerada por veículos pela primeira vez

A Li Auto recebeu, no Fórum Automobilístico da China em 2025, os primeiros dois certificados nacionais de segurança de IA gerada por veículos, tornando-se a empresa automotiva que primeiro passou pelas normas nacionais GB/T45654 e GB45438-2025. Esses certificados foram emitidos conjuntamente pelo Comitê de Segurança Cibernética Automotiva da Associação Chinesa de Inteligência Artificial (CCIA) e pela Plataforma de Identificação de Conteúdo Gerado por IA. Eles abrangem os dois campos de segurança de conteúdo e identificação. Esta conquista marca a posição de liderança da Li Auto na segurança de tecnologia AIGC em veículos, estabelecendo um padrão para o desenvolvimento seguro de veículos inteligentes, ao mesmo tempo que reforça a confiança dos consumidores

Jul 18, 2025

Modo de gravação do ChatGPT está disponível! Transcreva reuniões e gere planos com um clique, a IA impulsiona a produtividade!

OpenAI libera gravação no app macOS para ChatGPT Plus, com transcrição inteligente de 120 minutos, notas estruturadas e privacidade. Melhora produtividade em reuniões, mas tem limitações em grupos. Futura expansão para outras plataformas.....

Jul 18, 2025

Jornal A: Plataforma Kimi lança Kimi Playground; OpenAI anuncia ChatGPT Agent; Suno apresenta função de substituição da voz humana

【Resumo Diário de IA】 Hoje, o setor de IA viu várias inovações: 1) a plataforma aberta da Moonshot Kimi lançou o Playground, transformando a IA de assistente de conversa em assistente inteligente; 2) a OpenAI lançou o ChatGPT Agent, capaz de executar tarefas autonomamente; 3) a versão v4.5+ da Suno trouxe funções inovadoras de música, como substituição da voz humana; 4) o modelo de geração de vídeo Veo3 da Google abriu API, mas com custo elevado; 5) o primeiro modelo de conversão de vídeo em tempo real, MirageLSD, surgiu; 6) VSC

Jul 18, 2025

LTX-Video 13B lançado! Geração de vídeo em alta definição a 30 vezes a velocidade, a inteligência artificial de código aberto permite que a criação não tenha limites!

Lightricks lança modelo de geração de vídeo LTX-Video13B com 13B parâmetros, oferecendo velocidade 30x maior e resolução 1216×704 em GPUs comuns. Suporta múltiplos modos criativos e é open-source para democratizar a criação de vídeos com IA.....

Jul 18, 2025

Tencent Yuanbao integra QQ Music: suporta busca difusa, trilha sonora de cenário e reprodução ao destacar

O app Tencent Yuanbao integrou o QQ Music, permitindo buscas por voz e reprodução automática de músicas na versão 2.30, ampliando as habilidades de IA multimídia.....

Jul 18, 2025

Apple abaixa a cabeça e cede à NVIDIA! O framework MLX suporta CUDA, a competição no campo de IA se intensifica

A Apple adicionou suporte CUDA ao framework MLX, marcando uma mudança estratégica no ecossistema de IA. A medida visa facilitar a implantação de modelos em dispositivos Apple após treinamento em GPUs NVIDIA, unificando o desenvolvimento e ampliando a compatibilidade.....

Jul 18, 2025

O chip Dojo 2 da Tesla está prestes a entrar em produção em massa, com desempenho próximo ao da NVIDIA. Musk brincou dizendo que isso mudará as regras do jogo

A Tesla lançou o novo chip Dojo 2, cujo desempenho é 10 vezes superior ao da versão anterior e sua capacidade de computação se aproxima do B200 da NVIDIA. O chip é fabricado pela TSMC, usando tecnologia avançada de embalagem, resolvendo problemas de consumo de energia. O Dojo 2 ajudará no treinamento do sistema de condução autônoma FSD da Tesla, processando diariamente 160 bilhões de quadros de vídeo e alcançando independência tecnológica. Musk revelou que no ano que vem será lançado um modelo mais poderoso, o Dojo 3, e brincou dizendo que o Dojo 2 pode executar ''Crysis'' a dez bilhões de quadros por segundo. Esta conquista reduzirá a dependência da Tesla em relação à NVIDIA e pode ser comercializada externamente.

Jul 18, 2025

Usuários avançados do Claude Code enfrentam restrições de uso inesperadas, Anthropic responde de forma ambígua

Usuários premium do Claude Code enfrentam restrições inexplicáveis, gerando crise de confiança. Limites repentinos em planos pagos (US$200/mês) sem explicação clara. Empresa cita 'problemas de resposta', mas registra 6 falhas em 4 dias. Usuários criticam falta de transparência e impacto em projetos, com promessas de recursos não cumpridas.....

Jul 18, 2025