A Alibaba Group anunciou recentemente o lançamento de sua nova e principal grande modelo, o Ling-1T, que possui até trilhões de parâmetros e é o maior modelo base conhecido que utiliza o modo de baixa precisão FP8 para treinamento. O Ling-1T foi desenvolvido pela equipe "Bailing" interna da Alibaba e marca mais uma inovação na tecnologia de inteligência artificial.

image.png

De acordo com a equipe, o Ling-1T faz parte da família de modelos Ling2.0, que se divide em três séries: a série Ling, a série Ring e a série Ming. A série Ling se concentra em tarefas gerais, priorizando velocidade e eficiência, enquanto a série Ring se concentra em pensamento profundo e raciocínio complexo. A série Ming é um modelo multimodal, capaz de lidar com tipos de informações mais ricos.

O Ling-1T possui 1 trilhão de parâmetros, mas, ao processar cada token, apenas cerca de 50 bilhões de parâmetros são ativados, reduzindo significativamente os custos computacionais. Para suportar esse modelo tão grande, a equipe da Alibaba propôs a "Lei de Escala Ling", que, após experimentos com mais de 300 modelos, revelou a relação entre eficiência computacional e proporção de especialistas ativados. Além disso, eles desenvolveram um scheduler de taxa de aprendizagem chamado WSM, que pode ajustar automaticamente as estratégias de aprendizagem durante o treinamento, garantindo que o modelo seja treinado de forma estável e eficiente.

O processo de treinamento do Ling-1T é dividido em três etapas: pré-treinamento, treinamento intermediário e pós-treinamento. Na fase de pré-treinamento, o modelo teve acesso a mais de 20 trilhões de tokens de dados, incluindo muitos materiais intensivos em raciocínio. Na fase de treinamento intermediário, o foco foi reforçar a capacidade de raciocínio do modelo, enquanto na fase de pós-treinamento, o modelo foi autotratado usando a tecnologia "Cadeia de Pensamento Evolutiva", melhorando assim a precisão do raciocínio.

Em comparação com outros modelos principais, o Ling-1T mostrou desempenho excelente em vários testes, especialmente em raciocínio matemático e geração de código, demonstrando seu desempenho excepcional. Nos testes da comunidade, o Ling-1T também se destacou em tarefas complexas, como simular fenômenos físicos e evolução cósmica com sucesso.

Apesar das poderosas capacidades do Ling-1T, ainda existem algumas limitações, como o alto custo no tratamento de contextos muito longos. A equipe da Alibaba já declarou que está pesquisando uma nova arquitetura de atenção híbrida para resolver esse problema.

Endereço de abertura de código:  

HuggingFace:https://huggingface.co/inclusionAI/Ling-1T  

GitHub:https://github.com/inclusionAI/Ling-V2  

Principais pontos:  

🔍 O Ling-1T é o modelo com trilhões de parâmetros conhecido até hoje, treinado com o modo de baixa precisão FP8.  

🚀 Esse modelo superou vários modelos principais em raciocínio matemático e geração de código, mostrando desempenho excelente.  

⚙️ A equipe da Alibaba está pesquisando uma nova arquitetura para resolver o problema de custo do Ling-1T no tratamento de contextos muito longos.