Das Team von Bai Ling, dem Multimodal-Langmodell Ming-lite-omni von Ant Group, hat kürzlich bei der Ant Technology Day eine wichtige Entscheidung bekanntgegeben: Die vollständige Open-Source-Publikation des Modells. Dieser Schritt markiert nicht nur einen weiteren bedeutenden Schritt der Offenlegung durch Ant Group im Bereich der KI, sondern gilt auch als die erste Open-Source-Modellierung im Modus-Support, das sich mit GPT-4o messen kann.

QQ20250529-151554.png

Technische Durchbrüche mit 220 Milliarden Parametern

Ming-lite-omni basiert auf Ling-lite und verwendet die fortschrittliche MoE-Architektur (Mixture of Experts), wobei insgesamt 220 Milliarden Parameter und 3 Milliarden aktivierte Parameter vorliegen. Diese Parameterzahl ist in der Open-Source-Welt multimodaler Modelle ein neuer Höhepunkt und zeigt die tief gehende technische Erfahrung von Ant Group in der Entwicklung großer Modelle.

Derzeit wurden die Modellgewichte und die Inferenzcodebasis für die Öffentlichkeit vollständig verfügbar gemacht, und in Zukunft werden auch Trainingscode und Trainingsdaten veröffentlicht, um Entwicklern weltweit vollständige technische Unterstützung zu bieten.

Die kontinuierliche Open-Source-Strategie bringt Früchte

In diesem Jahr hat das Bai Ling-Team bereits mehrere wichtige Modellprodukte öffentlich gemacht, darunter die großen Sprachmodelle Ling-lite und Ling-plus sowie das multimodale Modell Ming-lite-uni und die Preview-Version Ming-lite-omni.

Der am 15. Mai veröffentlichte Ling-lite-1.5-Version hat eine Leistung erreicht, die fast mit SOTA auf derselben Stufe steht, wobei ihre Fähigkeiten zwischen den Versionen 4B und 8B liegen. Dadurch wurde erfolgreich bewiesen, dass es möglich ist, eine SOTA-MoE-Großsprachmodellierung mit einer Größe von 300B Parametern auf nicht-hochleistungsrechenplattformen zu trainieren.

Leistung mit internationalen Spitzenmodellen vergleichbar

In Tests der Verstehens- und Generierungsfähigkeiten zeigt Ming-lite-omni eine Leistung, die mit den führenden multimodalen Großmodellen im Bereich 10B-Parameterwert oder darüber liegt oder diese sogar übertreffen kann. Ant Group erklärte, dass dies das erste bekannte Open-Source-Modell sei, das im Modus-Support mit GPT-4o konkurrieren kann, und bietet Entwicklern weltweit wichtige technische Optionen und Referenzstandards.

Xi Ting, verantwortlich für das Bai Ling-Großmodellteam, erläuterte den technischen Weg des Teams: „Wir haben uns entschieden, sowohl für Sprachgroßmodelle als auch für multimodale Großmodelle die MoE-Architektur zu verwenden und große Mengen an nicht-hohen Rechenplattformen einzusetzen, wodurch wir erfolgreich demonstriert haben, dass nationale GPU-Kapazitäten in der Ausbildung von Modellen, die GPT-4o vergleichbar sind, gleichwertig sind.“