A empresa Moonshot AI lançou oficialmente seu novo trabalho de força - o modelo Kimi K2, e anunciou simultaneamente o código aberto. Este modelo baseado na arquitetura MoE, com sua forte capacidade de programação e excelente habilidade de processamento de tarefas de Agent geral, causou amplo interesse no campo da IA desde seu lançamento.
O modelo Kimi K2 possui um total de 1T parâmetros, com 32B parâmetros ativados. Em uma série de benchmarks de desempenho, como SWE Bench Verified, Tau2 e AceBench, obteve resultados de topo entre os modelos de código aberto, demonstrando claramente sua liderança em escrita de código, execução de tarefas de Agent e raciocínio matemático.
Na fase de pré-treinamento, o Kimi K2 utilizou um otimizador inovador chamado MuonClip, que resolveu efetivamente o problema de logits de atenção muito grandes durante o treinamento em larga escala, elevando a estabilidade do treinamento e a eficiência de uso de tokens a um novo nível. A equipe Moonshot conseguiu treinar com sucesso 15,5 T tokens, sem picos de perda durante todo o processo, oferecendo uma nova perspectiva para o treinamento estável e eficiente de modelos com trilhões de parâmetros.
Além de sua excelente performance nos testes de benchmark, o Kimi K2 também demonstrou uma forte capacidade de generalização e utilidade nas aplicações práticas. Em termos de capacidade de programação, o Kimi K2 não apenas pode gerar código front-end com design e apresentação visual, suportando sistemas de partículas, visualizações e cenas 3D, mas também pode montar automaticamente uma interface completa para negociação de futuros sem instruções específicas, mostrando sua forte capacidade de programação autônoma.
No aspecto de chamada de ferramentas de Agent, o Kimi K2 também se destacou. Ele consegue analisar com estabilidade instruções complexas e decompor automaticamente as necessidades em uma série de estruturas ToolCall formatadas e diretamente executáveis, integrando-se sem problemas a vários frameworks de Agent/Coding, completando tarefas complexas ou codificação automatizada. Seja analisando o impacto da proporção de trabalho remoto sobre salários, ou criando um plano de fãs para Coldplay e completando a planificação correspondente, o Kimi K2 pode lidar com isso facilmente, demonstrando suas fortes habilidades de Agent.
Além disso, o Kimi K2 alcançou melhorias significativas na escrita com estilo. Seja reescrevendo textos científicos em tom de aluno do ensino fundamental, ou imitando textos de anúncios da Apple, o Kimi K2 pode controlar com precisão o estilo de saída, mantendo ao mesmo tempo o significado original e o estilo de expressão. Nas tarefas de escrita fictícia, o texto gerado pelo Kimi K2 é mais focado em detalhes e emoção, em vez de ser abstrato e vago, fornecendo uma experiência de criação mais rica para os usuários.
A Moonshot AI não apenas lançou o modelo Kimi K2, mas também disponibilizou simultaneamente dois modelos: Kimi-K2-Base e Kimi-K2-Instruct. O Kimi-K2-Base é um modelo pré-treinado básico não ajustado por instruções, adequado para cenários de pesquisa e personalizados; enquanto o Kimi-K2-Instruct é uma versão ajustada para instruções gerais, com excelente desempenho em maioria das perguntas e tarefas de Agent. Os modelos e os arquivos de pesos fp8 estão disponíveis no HuggingFace, para que os desenvolvedores possam usá-los livremente.
Para facilitar a implantação e o uso pelos desenvolvedores, os motores de inferência vLLM, SGLang e ktransformers também já suportam o modelo Kimi K2. Os desenvolvedores podem implantá-lo em seus próprios servidores e obter a mesma experiência que a API da plataforma Kimi.
No aspecto de serviços de API, o Kimi K2 também oferece suporte completo. Seu serviço de API já está disponível, suportando contexto máximo de 128K, com maior generalidade e capacidade de chamada de ferramentas. Os planos de cobrança são flexíveis e razoáveis, custando apenas 4 yuans por milhão de tokens de entrada e 16 yuans por milhão de tokens de saída. Além disso, ele é compatível com dois formatos de API: OpenAI e Anthropic, permitindo aos desenvolvedores alternar sem dificuldades.