Recentemente, o Meituan lançou oficialmente e abriu o código-fonte de seu novo modelo de IA de grande escala - LongCat-Flash-Chat. Este modelo apresenta uma capacidade total de parâmetros de 560B e um intervalo de parâmetros ativos de 18,6B a 31,3B, demonstrando um equilíbrio superior entre eficiência computacional e desempenho. O LongCat-Flash utiliza uma arquitetura inovadora de modelo de especialistas mistos (MoE), utilizando um mecanismo de "especialista sem cálculo", que faz com que apenas os parâmetros necessários sejam ativados para cada token, garantindo um uso eficiente da capacidade computacional.
No que diz respeito à arquitetura do modelo, o LongCat-Flash também introduziu um design de canal entre camadas, aumentando significativamente a paralelização durante o treinamento e a inferência. Isso permitiu que o modelo alcançasse uma velocidade de inferência de 100 tokens por segundo para um único usuário em apenas 30 dias de treinamento, no hardware H800. Vale destacar que, durante o processo de treinamento deste modelo, foi utilizado um controlador PID para ajustar em tempo real o viés dos especialistas, mantendo a média dos parâmetros ativos em 27B, controlando assim efetivamente o consumo de capacidade computacional.
Além disso, o LongCat-Flash realizou muitas otimizações na capacidade de agente. Ao construir seu próprio conjunto de avaliação Agentic e estratégias de geração de dados de múltiplos agentes, este modelo obteve excelentes resultados em diversos tarefas de agente, especialmente em cenários complexos, obtendo a primeira colocação no benchmark VitaBench. Em comparação com modelos com maior número de parâmetros, o LongCat-Flash ainda demonstra uma excelente capacidade de uso de ferramentas de agente.
No que diz respeito ao conhecimento geral, o LongCat-Flash também não fica para trás. No teste ArenaHard-V2, sua pontuação foi de 86,50, ficando em segundo lugar entre todos os modelos avaliados; enquanto nos benchmarks MMLU e CEval, obteve pontuações altas de 89,71 e 90,44, mostrando sua competitividade na compreensão linguística e na avaliação da capacidade chinesa.
O LongCat-Flash-Chat, com sua velocidade de inferência eficiente e desempenho notável como agente, não só lidera os concorrentes na tecnologia, mas sua iniciativa de código aberto também oferece aos desenvolvedores mais oportunidades de pesquisa e aplicação.
Endereço do projeto: https://github.com/meituan-longcat/LongCat-Flash-Chat
Site de experiência: https://longcat.ai/