Récemment, la plateforme de service de modèle linguistique à base de silicium a lancé officiellement Ling-flash-2.0, le dernier modèle open source du groupe Bailing d'Ant Group. C'est le 130e modèle mis en ligne sur cette plateforme.
Ling-flash-2.0 est un grand modèle linguistique basé sur une architecture MoE, avec 10 milliards de paramètres, et lorsqu'il est activé, il utilise uniquement 6,1 milliards de paramètres (4,8 milliards sans activation d'embedding). Après une pré-formation sur plus de 20 téraoctets de données de qualité, une révision supervisée et un apprentissage renforcé en plusieurs étapes, ce modèle, avec plus de 6 milliards de paramètres activés, présente des performances exceptionnelles comparables à celles d'un modèle dense de 40 milliards de paramètres.

Ling-flash-2.0 se distingue dans les domaines de raisonnement complexe, de génération de code et de recherche frontale, et peut supporter une longueur de contexte maximale de 128K, offrant aux utilisateurs une puissante capacité de traitement de texte. Son prix est relativement abordable : 1 yuan par million de tokens d'entrée et 4 yuans par million de tokens de sortie. En outre, les nouveaux utilisateurs des sites nationaux et internationaux peuvent bénéficier respectivement d'un crédit d'expérience de 14 yuans ou de 1 dollar.
Ling-flash-2.0 présente un avantage net en termes de performance. Comparé aux modèles Dense avec moins de 40 milliards de paramètres (comme Qwen3-32B-Non-Thinking et Seed-OSS-36B-Instruct) et aux modèles MoE avec un nombre plus important de paramètres actifs (comme Hunyuan-A13B-Instruct et GPT-OSS-120B/low), Ling-flash-2.0 montre une capacité de raisonnement complexe plus forte. En particulier, dans les tâches créatives, ce modèle est également très compétitif.
En outre, l'architecture de Ling-flash-2.0 a été soigneusement conçue pour permettre une inférence extrêmement rapide. Sous la direction des lois de scaling Ling, Ling2.0 utilise une architecture MoE avec un ratio d'activation de 1/32 et a optimisé plusieurs détails, ce qui permet à un modèle MoE avec une petite quantité d'activation d'atteindre un avantage de performance comparable à une architecture dense. Lorsqu'il est déployé sur H20, la vitesse de sortie de Ling-flash-2.0 atteint plus de 200 tokens par seconde, ce qui est plus de trois fois plus rapide que le modèle Dense de 36B.
La plateforme Silicon Flow s'engage à fournir aux développeurs des services d'API de grands modèles rapides, économiques et fiables. En plus de Ling-flash-2.0, la plateforme regroupe également divers modèles en plusieurs langues, images, audio et vidéo, répondant aux différents besoins des développeurs. Les développeurs peuvent comparer et combiner librement divers modèles sur la plateforme, utiliser facilement des API efficaces et aider ainsi à la pratique optimale des applications d'IA générative.
Expérience en ligne du site national
https://cloud.siliconflow.cn/models
Expérience en ligne du site international
https://cloud.siliconflow.com/models
Points clés :
🌟 Ling-flash-2.0 est un modèle linguistique de 10 milliards de paramètres basé sur une architecture MoE, doté d'une forte capacité de raisonnement complexe.
⚡ Le modèle prend en charge une longueur de contexte maximale de 128K, offrant une expérience d'inférence rapide avec une vitesse de sortie pouvant atteindre plus de 200 tokens par seconde.
💰 Les nouveaux utilisateurs peuvent bénéficier d'un crédit d'expérience sur les sites nationaux et internationaux, et la plateforme Silicon Flow propose divers services de grands modèles pour aider les développeurs à innover.





