Pesquisadores de IA da Nvidia lançam técnica de fusão FFN: Acelera a inferência de modelos de linguagem grandes

AIbase基地

Publicado emNotícias e Informações de IA · 7 minutos de leitura · Mar 31, 2025

Pesquisadores da gigante de chips de inteligência artificial Nvidia recentemente publicaram uma inovadora técnica de otimização de arquitetura chamada "FFN Fusion" (Fusão FFN). Essa técnica visa melhorar significativamente a eficiência de inferência de grandes modelos de linguagem (LLMs) ao resolver o gargalo de cálculo serial inerente à arquitetura Transformer, abrindo caminho para a implantação mais ampla de aplicativos de IA de alto desempenho.

Nos últimos anos, os grandes modelos de linguagem demonstraram capacidades poderosas em processamento de linguagem natural, pesquisa científica e agentes de diálogo. No entanto, com o aumento contínuo do tamanho e da complexidade dos modelos, os recursos computacionais necessários para o processo de inferência também cresceram consideravelmente, levando a gargalos de eficiência. A arquitetura Transformer é a base dos LLMs, e seus mecanismos de atenção alternados e camadas de redes feedforward (FFNs) precisam processar as entradas sequencialmente. Essa estrutura serial inerente, quando o tamanho do modelo aumenta, aumenta significativamente o custo computacional e de comunicação entre as GPUs, reduzindo a eficiência e aumentando os custos de implantação. Esse problema é ainda mais acentuado em cenários que exigem a geração rápida de vários tokens (como assistentes de IA em tempo real).

Para enfrentar esse desafio, os pesquisadores da Nvidia propuseram a técnica de FFN Fusion. A ideia central é combinar camadas FFN consecutivas e com baixa interdependência em um FFN mais amplo. Os pesquisadores observaram que, após a remoção das camadas de atenção, geralmente existem sequências longas de FFNs consecutivas em LLMs. Ao analisar essas sequências, eles descobriram que a dependência entre essas camadas FFN é pequena, portanto, elas podem ser executadas em paralelo.

A base matemática da FFN Fusion reside em concatenar os pesos de vários FFNs em série, criando assim um único módulo equivalente que pode ser calculado em paralelo. Por exemplo, se três FFNs são empilhados sequencialmente, com a saída de cada FFN servindo como entrada para o próximo, a FFN Fusion elimina essa dependência, permitindo que os três FFNs processem simultaneamente a mesma entrada e agreguem suas saídas. A análise teórica mostra que o FFN fundido mantém a mesma capacidade de representação do FFN original.

Ultra-253B-Base: Melhora dupla de desempenho e eficiência

Os pesquisadores da Nvidia aplicaram a técnica de FFN Fusion ao modelo Llama-3.1-405B-Instruct da Meta, criando um novo modelo chamado Ultra-253B-Base por meio de poda e reconstrução. Os resultados experimentais mostraram que o Ultra-253B-Base obteve melhorias significativas na velocidade de inferência e na eficiência de recursos. Especificamente, o modelo, com tamanho de lote 32, reduziu a latência de inferência em 1,71 vezes e o custo computacional por token em 35 vezes.

Ainda mais impressionante é que a melhoria na eficiência não se deu em detrimento da capacidade do modelo. O Ultra-253B-Base obteve excelentes resultados em vários benchmarks de avaliação de autoridade, como: MMLU 85,17%, MMLU-Pro 72,25%, HumanEval 86,58%, Arena Hard 84,92%, MT-Bench 9,19. Esses resultados são geralmente comparáveis ou até superiores aos do modelo original de 405 bilhões de parâmetros, enquanto o Ultra-253B-Base contém apenas 253 bilhões de parâmetros. Além disso, o consumo de memória do modelo também foi reduzido pela metade, graças à otimização do kv-cache.

Os pesquisadores usaram a distância do cosseno para analisar as saídas entre as camadas FFN, a fim de identificar regiões com baixa interdependência, que são as melhores opções para fusão. A técnica de FFN Fusion foi validada em modelos de diferentes escalas (incluindo 49 bilhões, 70 bilhões e 253 bilhões de parâmetros), demonstrando sua boa generalidade.

Esta pesquisa mostra que, por meio de análise aprofundada e design de arquitetura inteligente, é possível melhorar significativamente a eficiência dos LLMs. A FFN Fusion estabelece uma base para o design de LLMs mais paralelizados e adaptados ao hardware. Embora a paralelização de módulos Transformer completos enfrente mais desafios devido à maior dependência entre camadas, o sucesso da FFN Fusion certamente aponta uma direção importante para a otimização da eficiência de LLMs futuros.

Artigo: https://arxiv.org/abs/2503.18908

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Pesquisadores de IA da Nvidia lançam técnica de fusão FFN: Acelera a inferência de modelos de linguagem grandes

AIbase基地

Ultra-253B-Base: Melhora dupla de desempenho e eficiência

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Laboratório de IA de Xangai lança o primeiro benchmark de avaliação de conversão de vídeo para web IWR-Bench: pontuação geral do GPT-5 é apenas 36,35

Revolutionando o tratamento de textos longos em LLM! O DeepSeek-OCR lança uma mecanismo de compressão de memória visual ou quebra o gargalo de memória da IA

Apenas 250 documentos! A surpreendente descoberta de que modelos de IA também podem ser manipulados

Estudo da Universidade da Pensilvânia descobre que quanto mais rude for a pergunta, maior a precisão da resposta

Aviso de Segurança de IA: Apenas 250 arquivos são necessários para contaminar um modelo de linguagem grande

Descoberta revolucionária da Anthropic: apenas 250 arquivos de intoxicação podem comprometer modelos de IA grandes

OpenAI confirma que o ChatGPT ultrapassa 800 milhões de usuários ativos por semana

Aumento significativo na precisão dos grandes modelos além da tecnologia RAG DRAG

Relatório da Universidade de Stanford revela o excesso de escrita por IA: um quarto dos releases de empresas apresenta traços de modelos grandes

A Meta lança novo modelo CWM para auxiliar no entendimento e geração de código

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Pesquisadores de IA da Nvidia lançam técnica de fusão FFN: Acelera a inferência de modelos de linguagem grandes

AIbase基地

Ultra-253B-Base: Melhora dupla de desempenho e eficiência

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Laboratório de IA de Xangai lança o primeiro benchmark de avaliação de conversão de vídeo para web IWR-Bench: pontuação geral do GPT-5 é apenas 36,35

Revolutionando o tratamento de textos longos em LLM! O DeepSeek-OCR lança uma mecanismo de compressão de memória visual ou quebra o gargalo de memória da IA

Apenas 250 documentos! A surpreendente descoberta de que modelos de IA também podem ser manipulados

Estudo da Universidade da Pensilvânia descobre que quanto mais rude for a pergunta, maior a precisão da resposta

Aviso de Segurança de IA: Apenas 250 arquivos são necessários para contaminar um modelo de linguagem grande

Descoberta revolucionária da Anthropic: apenas 250 arquivos de intoxicação podem comprometer modelos de IA grandes

OpenAI confirma que o ChatGPT ultrapassa 800 milhões de usuários ativos por semana

Aumento significativo na precisão dos grandes modelos além da tecnologia RAG DRAG

Relatório da Universidade de Stanford revela o excesso de escrita por IA: um quarto dos releases de empresas apresenta traços de modelos grandes

A Meta lança novo modelo CWM para auxiliar no entendimento e geração de código

GEO Services