A Meta AI lançou recentemente o MobileLLM-R1, uma série de modelos de inferência em borda leves, que já foi publicada no Hugging Face. A série de modelos tem parâmetros entre 140M e 950M e se concentra em raciocínio matemático, de codificação e científico eficiente, apresentando um desempenho excelente com menos de 1 bilhão de parâmetros.

image.png

O modelo mais poderoso da série é o MobileLLM-R1-950M, que utiliza uma série de otimizações arquiteturais: inclui uma estrutura Transformer de 22 camadas, 24 cabeças de atenção e 6 cabeças de KV agrupadas. A dimensão de embedding do modelo é de 1536 e a dimensão da camada oculta é de 6144. Além disso, o modelo utiliza atenção de consulta agrupada (GQA) para reduzir a demanda computacional e de memória, e a tecnologia de compartilhamento de pesos por bloco reduz o número de parâmetros sem aumentar significativamente o atraso, enquanto a função de ativação SwiGLU melhora a capacidade de representação dos pequenos modelos. O modelo suporta um comprimento de contexto de 4K e um modelo pós-treinamento de 32K.

Em termos de eficiência de treinamento, o MobileLLM-R1 também apresenta resultados notáveis. O modelo foi treinado em aproximadamente 4,2 trilhões de tokens, comparado aos 36 trilhões de tokens usados no treinamento do modelo Qwen3 de 0,6B, o MobileLLM-R1 utilizou apenas cerca de 11,7% dos dados e alcançou ou superou a precisão do Qwen3. Além disso, o modelo foi ajustado com supervisão em conjuntos de dados de matemática, codificação e raciocínio, reduzindo assim os custos e a demanda por recursos de treinamento.

Na avaliação em diversos benchmarks, o MobileLLM-R1-950M apresenta desempenho excepcional: na base de dados MATH500, sua taxa de acerto é cerca de 5 vezes maior que a do OLMo-1,24B e cerca de 2 vezes maior que a do SmolLM2-1,7B. Em tarefas de raciocínio e codificação como GSM8K, AIME e LiveCodeBench, o MobileLLM-R1 corresponde ou supera o Qwen3-0,6B, apesar de usar muito menos tokens do que este último.

No entanto, o foco do MobileLLM-R1 também traz limitações. Embora tenha um bom desempenho em matemática, codificação e raciocínio estruturado, seu desempenho em tarefas gerais de diálogo, raciocínio comum e criatividade é inferior ao de modelos maiores. Além disso, o uso do modelo em ambientes de produção está restrito pela licença FAIR NC (não comercial), e o longo contexto (32K) aumenta a demanda por cache de KV e memória durante a inferência.

Em resumo, o MobileLLM-R1 da Meta mostra uma tendência: o desenvolvimento de modelos menores e mais especializados, capazes de oferecer capacidades de raciocínio competitivas sem necessidade de orçamentos de treinamento grandes. Esse modelo destaca-se especialmente em cenários de matemática, codificação e ciência, definindo um novo padrão para a implementação de modelos de linguagem em larga escala em dispositivos de borda.

Projeto: https://huggingface.co/facebook/MobileLLM-R1-950M

Destaque:  

🧩 ** Novo modelo lançado **: A Meta AI lança a série de modelos de inferência em borda leves MobileLLM-R1, com parâmetros entre 140M e 950M.  

📊 ** Eficiência de treinamento **: O MobileLLM-R1 usa apenas cerca de 11,7% dos dados para treinamento, apresentando um bom desempenho, reduzindo significativamente os custos e a demanda por recursos de treinamento.  

💡 ** Vantagens de desempenho **: No desempenho em vários benchmarks, o MobileLLM-R1-950M supera várias grandes versões abertas, especialmente nas tarefas de matemática e codificação.