A equipe de pesquisa da empresa de inteligência artificial DeepSeek anunciou na segunda-feira que lançou um novo modelo experimental chamado V3.2-exp, projetado para reduzir significativamente os custos de raciocínio em operações de contexto longo por meio de uma inovadora "atenção esparsa". Essa conquista marcante foi lançada simultaneamente no Hugging Face e no GitHub, acompanhada de um artigo acadêmico detalhado.

DeepSeek

O núcleo do modelo é sua única mecânica de atenção esparsa DeepSeek. Este sistema complexo é composto por duas partes: primeiro, um módulo chamado "índice rápido" prioriza certas extrações no janela de contexto; segundo, um sistema independente de seleção de tokens granulares escolhe os tokens-chave dessas extrações prioritárias e os carrega na janela limitada de atenção. A combinação desses mecanismos permite que o modelo de atenção esparsa processe com eficiência fragmentos de contexto longo com baixo custo nos servidores.

Nos testes iniciais, o novo modelo demonstrou vantagens significativas. A DeepSeek relatou que, nas operações de contexto longo, os custos de chamadas simples à API podem ser reduzidos até metade. Embora ainda sejam necessários mais testes de terceiros para validar essas conclusões, como o modelo tem pesos abertos e está disponível gratuitamente no Hugging Face, seu desempenho real será rapidamente validado pela indústria.

QQ20250930-085622.png

Essa inovação da DeepSeek é uma das várias recentes voltadas para resolver problemas de custo de raciocínio em IA. O custo de raciocínio refere-se aos custos dos servidores para executar modelos de IA treinados, não aos custos de treinamento. Ao contrário do modelo R1, que se concentra em reduzir os custos de treinamento, o novo modelo se concentra em melhorar a eficiência da arquitetura base Transformer, oferecendo uma solução mais econômica para a difusão de aplicações de IA.