Hace unos días, surgió en línea una importante filtración sobre el anuncio de que OpenAI lanzará una serie de modelos de código abierto llamada "GPT-OSS" (GPT Open Source Software), lo que ha generado gran atención en la industria. Según los archivos de configuración filtrados, esta serie de modelos tiene un número de parámetros que oscila entre 2 mil millones y 12 mil millones, utilizando una arquitectura avanzada de MoE (Mixture of Experts), combinada con extensión de contexto largo y mecanismos de atención eficientes, demostrando un gran potencial de rendimiento. El equipo de edición de AIbase analiza en profundidad las características técnicas de GPT-OSS y su posible impacto en la industria de la IA.

Avance en la arquitectura MoE: un motor poderoso con 11.600 millones de parámetros dispersos. La serie de modelos GPT-OSS utiliza una arquitectura MoE Transformer, que incluye 36 capas, 128 expertos y un mecanismo de enrutamiento Top-4, con un total de 11.600 millones de parámetros dispersos y aproximadamente 510 millones de parámetros activos. Este diseño distribuye las tareas computacionales entre varios módulos de expertos, reduciendo significativamente el consumo de recursos computacionales, mientras se mantiene un alto rendimiento. A diferencia de los modelos densos tradicionales, la arquitectura MoE permite que GPT-OSS funcione en una amplia gama de entornos de hardware, brindando mayor flexibilidad a la comunidad de código abierto y a los desarrolladores.

image.png

Parámetros de gran escala: un total de 11.600 millones de parámetros dispersos, con solo 510 millones de parámetros activos, asegurando un equilibrio entre cálculo eficiente y rendimiento potente.

Despliegue flexible: la arquitectura MoE reduce la dependencia de clusters de GPUs de alto rendimiento, permitiendo que equipos pequeños y medianos también utilicen este modelo para el desarrollo.

Extensión de contexto largo: capacidad asombrosa de 131.000 tokens. GPT-OSS ha logrado un gran avance en la capacidad de procesamiento de contexto. Su longitud inicial de contexto es de 4.096 tokens, que se extiende mediante la tecnología RoPE (Rotary Position Embedding) a aproximadamente 131.000 tokens. Esta capacidad de contexto largo permite al modelo manejar documentos muy largos y escenarios complejos de conversación, aplicándose a investigaciones académicas, análisis legal y generación de código a gran escala, entre otros escenarios de alta throughput.

Además, el modelo utiliza un mecanismo de atención de ventana deslizante (Sliding Window Attention) con una ventana de 128 tokens, combinado con la tecnología GQA (Grouped Query Attention), lo que reduce el uso de memoria por token y capa a aproximadamente 72 KB. Este diseño reduce significativamente el costo de memoria, manteniendo al mismo tiempo una capacidad eficiente de procesamiento paralelo, garantizando un excelente rendimiento para el procesamiento de documentos largos. Optimización del mecanismo de atención: 64 cabezas GQA y alto rendimiento de throughput. El mecanismo de atención de GPT-OSS también llama la atención.

El modelo cuenta con 64 cabezas de atención, cada una con una dimensión de 64, y combina la tecnología GQA para optimizar aún más la eficiencia computacional. En comparación con la atención multihilo tradicional, GQA reduce la complejidad computacional al agrupar consultas, y al mismo tiempo mejora la capacidad del modelo mediante proyecciones de atención más anchas (más anchas que la dimensión oculta). Este diseño es especialmente adecuado para escenarios que requieren alto throughput y baja latencia, como traducción en tiempo real, completado de código y generación de documentos largos.

Ventajas de rendimiento: combinación de GQA y ventana deslizante: reduce significativamente el uso de memoria de KV, mejorando la eficiencia de descodificación.

Soporte NTK RoPE: mediante una extensión no uniforme de RoPE, se asegura la estabilidad del código de posición en escenarios de contexto largo.

Optimización de alto throughput: el modelo tiene una excelente relación costo-beneficio de KV y características paralelas en el lado de descodificación, lo que lo hace adecuado para entornos de producción a gran escala.

Estrategia de apertura: ¿OpenAI vuelve a su esencia original? La noticia de que OpenAI está abriendo GPT-OSS se considera un cambio importante en su estrategia. Como empresa que últimamente ha estado fortaleciendo la privacidad de sus modelos, este paso podría ser una respuesta a las expectativas de la comunidad de código abierto, así como una reacción ante la fuerte presencia de competidores como Meta y Mistral en el ámbito de la IA de código abierto. Según la información filtrada, la serie GPT-OSS incluye varios modelos (como versiones con 2 mil millones y 12 mil millones de parámetros), lo que muestra que OpenAI busca crear una familia de modelos que satisfaga diferentes necesidades, ofreciendo más opciones a los desarrolladores.

No obstante, los archivos de configuración filtrados también han generado controversia. Algunos desarrolladores señalan que aunque un modelo MoE con 11.600 millones de parámetros es teóricamente poderoso, su ejecución real podría requerir soporte de hardware de alto rendimiento. Por ejemplo, ejecutar un modelo con 12 mil millones de parámetros podría requerir hasta 1,5 TB de memoria, lo cual sigue siendo un desafío para los desarrolladores comunes. OpenAI aún no ha confirmado oficialmente la veracidad de esta información filtrada, pero la industria cree generalmente que la publicación de GPT-OSS abrirá un nuevo capítulo en la ecología de la IA.

Opinión de AIbase:

El potencial impacto y los desafíos de GPT-OSS. La información filtrada sobre GPT-OSS revela un nuevo intento de OpenAI en el ámbito del código abierto, con su arquitectura MoE, extensión de contexto largo y mecanismos de atención eficientes que muestran las tendencias tecnológicas de los próximos modelos de IA. Al reducir la barrera computacional y optimizar el uso de memoria, GPT-OSS tiene el potencial de ofrecer más oportunidades de innovación a desarrolladores y centros de investigación de tamaño mediano. Sin embargo, las altas demandas de hardware del modelo y los detalles de entrenamiento no completamente revelados podrían limitar su difusión. En el futuro, cómo OpenAI equilibre su estrategia de apertura y comercialización, así como cómo optimice el despliegue real del modelo, será un tema de interés para la industria.

Conclusión