Kürzlich wurde die Silicon Flow-Plattform von Ant Group offiziell mit der neuesten Open-Source-Modellversion Ling-flash-2.0 des Baoling-Teams ausgestattet. Dies ist das 130. Modell, das auf der Plattform veröffentlicht wurde.

Ling-flash-2.0 ist ein großes Sprachmodell mit 10 Milliarden Parametern, das auf der MoE-Architektur basiert und bei der Aktivierung nur 6,1 Milliarden Parameter verwendet (4,8 Milliarden Parameter ohne Einbettung). Nach einer Vortrainingsphase mit über 20 TB hochwertiger Trainingsdaten, überwachter Feinabstimmung und mehrstufiger Verstärkungslernen hat dieses Modell bei der Aktivierung von mehr als 6 Milliarden Parametern eine außergewöhnliche Leistung gezeigt, die mit der von 40 Milliarden Parametern großen Dense-Modellen vergleichbar ist.

image.png

Ling-flash-2.0 zeigt hervorragende Leistungen in komplexen Reasoning-, Code-Generierungs- und Frontend-Entwicklungsanwendungen. Es unterstützt eine maximale Kontextlänge von 128K und bietet den Nutzern eine stärkere Textverarbeitungsfähigkeit. Sein Preis ist relativ niedrig: Eingabe beträgt 1 Yuan pro Million Token und Ausgabe 4 Yuan pro Million Token. Neue Benutzer im Inland und weltweit erhalten jeweils 14 Yuan oder 1 US-Dollar als Testguthaben.

Ling-flash-2.0 verfügt über klare Vorteile in Bezug auf die Leistung. Im Vergleich zu Dense-Modellen mit weniger als 40 Milliarden Parametern (wie Qwen3-32B-Non-Thinking und Seed-OSS-36B-Instruct) sowie MoE-Modellen mit größeren aktivierten Parametern (wie Hunyuan-A13B-Instruct und GPT-OSS-120B/low) zeigt Ling-flash-2.0 eine stärkere Fähigkeit zur komplexen Reasoning. Besonders bei kreativen Aufgaben hat dieses Modell auch starke Wettbewerbsfähigkeit.

Zusätzlich wurde die Architektur von Ling-flash-2.0 sorgfältig entworfen, um schnelle Inferenz zu ermöglichen. Unter der Anleitung der Ling Scaling Laws verwendete Ling2.0 eine MoE-Architektur mit einem Aktivierungsverhältnis von 1/32 und optimierte viele Details, wodurch kleine aktivierte MoE-Modelle einen Leistungsadvantage im Vergleich zu Dense-Architekturen erzielen können. Bei der Bereitstellung mit H20 erreicht die Ausgabegeschwindigkeit von Ling-flash-2.0 über 200 Token pro Sekunde und ist drei Mal schneller als das 36B-Dense-Modell.

Die Silicon Flow-Plattform ist bestrebt, Entwicklern schnelle, wirtschaftliche und zuverlässige API-Dienste für große Modelle anzubieten. Neben Ling-flash-2.0 vereint die Plattform verschiedene Modelle für Sprache, Bild, Audio und Video, um die unterschiedlichen Bedürfnisse der Entwickler zu erfüllen. Entwickler können auf der Plattform verschiedene Modelle frei vergleichen und kombinieren und einfach effiziente APIs aufrufen, um die beste Praxis für generative AI-Anwendungen zu unterstützen.

Online-Testversion des Inlands

https://cloud.siliconflow.cn/models

Online-Testversion der internationalen Website

https://cloud.siliconflow.com/models

Hauptpunkte:

🌟 Ling-flash-2.0 ist ein 10 Milliarden Parameter großes Sprachmodell auf Basis der MoE-Architektur mit starken Fähigkeiten zur komplexen Reasoning.

⚡ Das Modell unterstützt eine maximale Kontextlänge von 128K und bietet eine schnelle Inferenz, wobei die Ausgabegeschwindigkeit bis zu 200+ Token pro Sekunde erreichen kann.

💰 Neue Benutzer erhalten im Inland und auf der internationalen Seite Testguthaben. Die Silicon Flow-Plattform bietet verschiedene große Modell-Dienste, um Entwicklern Innovation zu ermöglichen.