Latest AI News

Tracking Global AI Breakthroughs and Industry Transformation

AI Daily Brief

AI insights in 3 minutes daily

Information

AI Product Finder

Curated AI Open Source Solutions for Enterprise Intelligence

AI Product Rankings

Authoritative AI tools ranking, one-stop selection

AI Product Submit

Submit AI products, build intelligent ecosystem together

Tools

AI Tools Directory

Discover The Best AI Websites & Tools

Building and Deploying AI

Deploy 100+ open-source software on a dedicated instance in <3 mins

Information

AI Models Finder

Open Source Pre-trained Models for Faster AI Deployment

LLM Leaderboard

Comparison and ranking the performance of over 100 AI models

Model Providers

Connect with Top LLM Providers Worldwide

Submit Your Model

Submitting your AI Model, monetize value quickly

Tools

Compare LLMs

Compare LLM Capabilities, Choose Models Effortlessly

LLM Cost Calculator

Calculate LLM Costs Instantly, Stay Within Budget

LLM Arena

AI Performance Showdown: Battle-Tested, Best-in-Class

Information

MCP Servers

Best mcp servers powering enterprise development and deployment

MCP Client

Multi-model orchestration, complex business simplified

MCP Case Tutorials

Step-by-step guide to master core development and practical skills

MCP Ranking

Explore the most popular MCP servers ranked

MCP Service Submission

Submit MCP services, monetize value quickly

Tools

MCP Playground

Connect AI to Tools Instantly: Your Zero-Barrier MCP Playground

MCP Inspector

One-Click Integration: Seamlessly Bridge AI and Tools

GEO Services

Achieve Dominant Visibility in AI Search for Your Business or Brand with GEO Services

Relatório Técnico do Tencent TurboS revela completamente a arquitetura híbrida Mamba de 560B parâmetros

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · May 22, 2025

A Tencent lançou o relatório técnico do modelo TurboS, revelando as inovações centrais e a capacidade poderosa de seu modelo de linguagem principal, o TurboS.

De acordo com a classificação mais recente da plataforma global de avaliação de modelos grandes Chatbot Arena, o TurboS da Hunchun ficou em sétimo lugar entre 239 modelos participantes, tornando-se o modelo de topo doméstico após o Deepseek e ficando atrás apenas de几家 instituições internacionais como Google, OpenAI e xAI.

O modelo de linguagem TurboS adota uma estrutura inovadora chamada Hybrid Transformer-Mamba, que combina eficientemente a arquitetura Mamba na manipulação de sequências longas com os pontos fortes da compreensão de contexto da arquitetura Transformer, alcançando um equilíbrio entre desempenho e eficiência. O modelo totaliza 128 camadas e tem uma quantidade de parâmetros ativos de até 560 bilhões, sendo o primeiro modelo híbrido especialista Transformer-Mamba de grande escala a ser amplamente implantado (MoE). Com essa inovação arquitetônica, o TurboS obteve uma pontuação geral alta de 1356 nos testes autorizados internacionais.

Para melhorar ainda mais a capacidade do modelo, o TurboS introduziu um mecanismo de cadeia de pensamento adaptável de comprimento variável, que pode alternar automaticamente os modos de resposta de acordo com a complexidade da questão. Esse mecanismo permite que o modelo responda rapidamente a questões simples enquanto analisa profundamente e oferece respostas de alta precisão para questões complexas. Além disso, a equipe projetou um processo de pós-treinamento contendo quatro módulos-chave, incluindo microajuste supervisionado e fusão adaptável de cadeias de pensamento de curto e longo prazo, reforçando ainda mais o desempenho do modelo.

No estágio de pré-treinamento, o TurboS foi treinado em um corpus de 16 trilhões de tokens, garantindo a qualidade e diversidade dos dados do modelo. Sua arquitetura central inclui componentes como Transformer, Mamba2 e redes neurais feedforward (FFN), com uma composição de camadas razoável, maximizando a eficiência tanto no treinamento quanto na推理.

O lançamento deste relatório técnico não apenas demonstra o poder tecnológico da Tencent no campo de modelos de linguagem grandes, mas também fornece novas ideias e direções para o desenvolvimento futuro dos modelos grandes.

Link do artigo: https://arxiv.org/abs/2505.15431

Destaque:

🌟 O modelo TurboS classificou-se em sétimo lugar no Chatbot Arena, mostrando uma forte competitividade.

💡 A inovadora arquitetura Hybrid Transformer-Mamba alcançou o melhor equilíbrio entre desempenho e eficiência.

🔍 O mecanismo de cadeia de pensamento adaptável de comprimento variável melhorou a capacidade do modelo de responder a questões de diferentes níveis de complexidade.

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

Building and Deploying AI

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

Relatório Técnico do Tencent TurboS revela completamente a arquitetura híbrida Mamba de 560B parâmetros

AIbase基地

Este artigo é do AIbase Daily

GEO Services