No campo da inteligência artificial, o limite de número de tokens tem sido um problema a ser resolvido há muito tempo. Recentemente, uma pesquisa realizada por uma equipe de chineses chamou atenção, mostrando que modelos de linguagem difusos têm potencial para aprender dados três vezes maior do que modelos autoregressivos quando o número de tokens é limitado. Essa descoberta pode abrir novas possibilidades para o treinamento de modelos de linguagem no futuro.
O núcleo desta pesquisa é um modelo difuso com 1 bilhão de parâmetros, que foi treinado por 480 ciclos usando 1 bilhão de tokens. Nos testes padrão HellaSwag e MMLU, o modelo atingiu taxas de acerto de 56% e 33%, respectivamente, e durante o treinamento não foram usadas nenhuma técnica especial ou seleção de dados. O mais surpreendente é que, mesmo com dados altamente repetidos, o desempenho do modelo não apresentou saturação, indicando que ele pode extrair mais informações úteis dos mesmos dados.
Os pesquisadores analisaram a forte capacidade de aprendizado de dados dos modelos de linguagem difusos, atribuindo-a a duas razões principais. Primeiro, os modelos difusos utilizam modelagem bidirecional e objetivos de difusão, o que permite explorar mais informações nos dados, enquanto os modelos autoregressivos tradicionais têm restrições causais ao lidar com dados. Segundo, os modelos difusos têm maior densidade de cálculo, investindo mais recursos computacionais durante o treinamento e a inferência, otimizando as previsões processando os dados várias vezes, aumentando assim o desempenho geral do modelo.
Ainda que os modelos difusos demonstrem certa robustez no uso repetido de dados, a equipe de pesquisa descobriu que, à medida que o número de ciclos de treinamento aumenta, o modelo pode sofrer sobreajuste. No entanto, surpreendentemente, mesmo com sobreajuste, o desempenho do modelo nas tarefas subsequentes não diminui imediatamente, mas às vezes continua melhorando. Isso ocorre porque a variação da perda de validação nem sempre está positivamente correlacionada com a precisão das tarefas subsequentes, e o modelo pode se tornar excessivamente confiante em certos fragmentos de texto ao lidar com dados de treinamento limitados.
As descobertas desta pesquisa oferecem novas ideias para os métodos de treinamento de modelos de IA no futuro, especialmente em situações onde o número de tokens é limitado, as perspectivas de aplicação dos modelos de linguagem difusos serão ainda mais amplas. A equipe de pesquisa planeja usar modelos maiores e dados mais únicos em trabalhos futuros para verificar ainda mais essas descobertas.