Recentemente, informações sobre a próxima liberação pela OpenAI de uma série de modelos de código aberto chamada "GPT-OSS" (GPT Open Source Software) circularam na internet, gerando grande atenção da indústria. De acordo com os arquivos de configuração vazados, esta série de modelos possui parâmetros que variam de 2 bilhões a 12 bilhões, utilizando uma arquitetura avançada de MoE (Mistura de Especialistas), combinada com extensão de contexto longo e mecanismos de atenção eficientes, demonstrando grande potencial de desempenho. A equipe de edição da AIbase analisa profundamente os destaques técnicos do GPT-OSS e seu potencial impacto na indústria de IA.
Quebra de arquitetura MoE: um motor poderoso com 11,6 bilhões de parâmetros esparsos. Os modelos da série GPT-OSS utilizam uma arquitetura Transformer Mixture of Experts (MoE), com 36 camadas, 128 especialistas e mecanismo de roteamento Top-4, totalizando 11,6 bilhões de parâmetros esparsos e aproximadamente 510 milhões de parâmetros ativos. Este design distribui as tarefas computacionais entre módulos especializados, reduzindo significativamente o consumo de recursos computacionais, enquanto mantém alto desempenho. Em comparação com modelos densos tradicionais, a arquitetura MoE permite que o GPT-OSS opere em uma gama mais ampla de ambientes de hardware, oferecendo maior flexibilidade à comunidade de código aberto e aos desenvolvedores.

Parâmetros em escala maciça: 11,6 bilhões de parâmetros esparsos no total, com apenas 510 milhões de parâmetros ativos, garantindo equilíbrio entre cálculo eficiente e desempenho poderoso.
Implantação flexível: a arquitetura MoE reduz a dependência de clusters de GPUs de alto desempenho, permitindo que equipes menores também utilizem este modelo para desenvolvimento.
Extensão de contexto longo: capacidade impressionante de 131.000 Tokens. O GPT-OSS alcançou uma grande conquista na capacidade de processamento de contexto. Seu comprimento inicial de contexto é de 4.096 Tokens, expandido para cerca de 131.000 Tokens por meio da tecnologia RoPE (Rotary Position Embedding). Essa capacidade de contexto longo permite que o modelo processe documentos muito longos e cenários complexos de diálogo, sendo aplicável a pesquisas acadêmicas, análise jurídica e geração de grandes volumes de código, entre outros cenários de alta taxa de transferência.
Além disso, o modelo utiliza um mecanismo de atenção com janela deslizante (Sliding Window Attention), com tamanho de janela de 128 Tokens, combinado com a tecnologia GQA (Grouped Query Attention), resultando em ocupação de cache KV de aproximadamente 72 KB por Token por camada. Esta design reduz significativamente o uso de memória, ao mesmo tempo que mantém a capacidade de processamento paralelo eficiente, garantindo excelente desempenho para o processamento de documentos longos. Otimização de mecanismo de atenção: 64 cabeças GQA e desempenho de alta taxa de transferência. O mecanismo de atenção do GPT-OSS também chama atenção.
O modelo possui 64 cabeças de atenção, cada uma com dimensão de 64, combinando a tecnologia GQA para otimizar ainda mais a eficiência computacional. Em comparação com a atenção multi-cabeça tradicional, a GQA reduz a complexidade computacional agrupando consultas, enquanto aumenta a capacidade do modelo através de projeções de atenção mais largas (mais largas que a dimensão oculta). Este design é especialmente adequado para cenários que exigem alta taxa de transferência e baixa latência, como tradução em tempo real, complemento de código e geração de documentos longos.
Vantagens de desempenho: combinação de GQA e janela deslizante: reduz significativamente a ocupação de cache KV, melhorando a eficiência de decodificação.
Suporte NTK RoPE: usando a expansão RoPE com percepção temporal não uniforme, garante a estabilidade da codificação de posição em cenários de contexto longo.
Otimização de alta taxa de transferência: o modelo possui excelentes características de custo de KV e paralelismo no lado de decodificação, adequado para ambientes de produção em grande escala.
Estratégia de código aberto: OpenAI volta ao seu princípio original? A notória divulgação do GPT-OSS da OpenAI é vista como uma mudança estratégica importante. Como uma empresa que recentemente tem se tornado mais fechada em seus modelos, essa iniciativa pode ser uma resposta às expectativas da comunidade de código aberto, bem como uma contrapartida às fortes performances de Meta e Mistral na área de IA de código aberto. Segundo as informações vazadas, a série GPT-OSS inclui vários modelos (como os de 2 bilhões e 12 bilhões de parâmetros), mostrando que a OpenAI pretende criar uma família de modelos que atenda a diferentes necessidades, oferecendo mais opções aos desenvolvedores.
No entanto, os arquivos de configuração vazados também geraram controvérsias. Alguns desenvolvedores apontaram que, embora o modelo MoE de 11,6 bilhões de parâmetros seja teoricamente poderoso, sua execução real pode exigir suporte a hardware de alto desempenho. Por exemplo, executar o modelo de 12 bilhões de parâmetros pode exigir até 1,5 TB de memória, o que ainda é um grande desafio para os desenvolvedores comuns. A OpenAI ainda não confirmou oficialmente a veracidade dessas informações, mas a indústria acredita que a divulgação do GPT-OSS de código aberto terá um impacto profundo na ecologia da IA.
Opinião da AIbase:
O potencial impacto e desafios do GPT-OSS. As informações vazadas sobre o GPT-OSS revelam uma nova tentativa da OpenAI no campo do código aberto, com sua arquitetura MoE, extensão de contexto longo e mecanismos de atenção eficientes demonstrando tendências tecnológicas para próximos modelos de IA. Ao reduzir a barreira computacional e otimizar o uso de memória, o GPT-OSS promete trazer mais oportunidades de inovação para desenvolvedores e instituições de pesquisa de pequeno e médio porte. No entanto, as altas demandas de hardware do modelo e os detalhes de treinamento ainda não totalmente divulgados podem limitar sua popularidade. No futuro, como a OpenAI equilibrará sua estratégia de código aberto e comercialização, bem como como otimizará o desempenho prático do modelo, será o foco da indústria.
Conclusão





