A equipe Seed da ByteDance divulgou recentemente os resultados surpreendentes do teste completo das disciplinas do exame nacional de 2025: o modelo Seed1.6-Thinking da Douyin obteve 683 pontos na área de ciências humanas e 648 pontos na área de ciências naturais no exame, atingindo a pontuação de admissão nas universidades Tsinghua e Peking, destacando-se significativamente nos testes de IA para o exame nacional, tanto no exterior quanto no país.

Modelo grande Douyin da ByteDance

O teste foi realizado com as provas da nova edição nacional e com as provas autônomas da província de Shandong. O Douyin competiu com cinco modelos de IA de topo internacionais e nacionais, como o Google Gemini 2.5 Pro, o DeepSeek R1 e o OpenAI o3. O Douyin obteve a maior pontuação entre os modelos testados com 683 pontos na área de ciências humanas e 648 pontos na área de ciências naturais, ficando atrás apenas do Gemini 2.5 Pro, que obteve 655 pontos. Em desempenho por disciplina, o Douyin obteve a maior pontuação em seis disciplinas: chinês, inglês, física, história, geografia e política, e também superou 140 pontos em matemática, demonstrando uma excelente capacidade de raciocínio lógico.

Nessa "batalha do exame nacional" de IA, cada modelo mostrou suas vantagens em diferentes disciplinas. O DeepSeek R1 obteve a maior pontuação individual em matemática com 145 pontos, o Gemini 2.5 Pro obteve a maior pontuação em química com 82 pontos, enquanto o OpenAI o3 obteve a maior pontuação em biologia, compartilhada com o Gemini 2.5 Pro, com 77 pontos. Essa diferença de desempenho reflete as características únicas dos diferentes modelos de IA em termos de estrutura de conhecimento e métodos de raciocínio.

QQ20250626-095943.png

A equipe Seed descobriu um detalhe técnico importante: durante o primeiro teste, devido à baixa qualidade das provas online, todos os modelos tiveram grandes perdas nas disciplinas que dependem de imagens, como química e biologia. Após obter as imagens das provas em alta resolução, a equipe realizou novamente o teste usando uma abordagem combinada de texto e imagem. Os resultados mostraram que o Douyin aumentou cerca de 30 pontos nas disciplinas de química e biologia, obtendo uma pontuação total de ciências naturais de 676 pontos. Essa descoberta validou a importância do raciocínio multimodal para explorar o potencial dos modelos e forneceu importantes insights para o desenvolvimento da compreensão visual e do raciocínio multimodal em IA.

A província de Shandong adota o modelo "3+3" para o exame nacional, onde chinês, matemática e inglês são disciplinas básicas, e outras três disciplinas são avaliadas com base em classificações. Segundo uma análise de um professor de ensino médio experiente da região, a pontuação combinada obtida pelo Douyin pode chegar a aproximadamente 690 pontos. Com base na tabela de distribuição de pontos da província de Shandong em 2025, ele estaria entre os 80 primeiros colocados, o que é suficiente para concorrer às universidades top como Tsinghua e Peking. Essa performance não só demonstra a força absoluta do Douyin, mas também sua capacidade de adaptação em sistemas de avaliação complexos.