Im letzten Zeitraum hat Meituan offiziell sein neuestes KI-Modell LongCat-Flash-Chat veröffentlicht und es open source gemacht. Mit einer Gesamtparameteranzahl von 560B und einem Aktivierungsparameterbereich zwischen 18,6B und 31,3B zeigt dieses Modell eine hervorragende Balance zwischen Berechnungseffizienz und Leistung. LongCat-Flash verwendet eine innovative Architektur des Mixed-Experts-Modells (MoE) und nutzt die „Zero-Computation-Expert“-Mechanik, wodurch nur notwendige Parameter pro Token aktiviert werden und so die Effizienz der Rechenleistung gewährleistet wird.
Im Hinblick auf die Modellarchitektur hat LongCat-Flash auch eine Quer-Schicht-Kanal-Design eingeführt, was die Parallelität bei Training und Inferenz stark verbessert. Dadurch erreicht das Modell auf H800-Hardware eine Inferenzgeschwindigkeit von 100 Tokens pro Sekunde pro Benutzer innerhalb von nur 30 Tagen Training. Es ist erwähnenswert, dass während des Trainings des Modells ein PID-Regler verwendet wurde, um die Bias der Experten in Echtzeit anzupassen und den Durchschnittswert der aktivierte Parameter auf 27B zu halten, wodurch der Verbrauch der Rechenleistung effektiv kontrolliert wird.
Nicht nur in Bezug auf die Fähigkeiten als Agent hat LongCat-Flash zahlreiche Optimierungen vorgenommen. Durch die Erstellung eigener Agentic-Bewertungsdatensätze und Strategien zur Generierung von Daten mit mehreren Agenten hat dieses Modell ausgezeichnete Leistungen in verschiedenen Agententasks gezeigt, insbesondere in komplexen Szenarien, wo es in der VitaBench-Benchmark-Test auf dem ersten Platz steht. Im Vergleich zu Modellen mit größeren Parametern zeigt sich, dass LongCat-Flash weiterhin eine außergewöhnliche Fähigkeit zum Umgang mit Agententools besitzt.
Auch im Bereich allgemeiner Kenntnisse ist LongCat-Flash nicht hinterher. Bei dem ArenaHard-V2-Test erreichte es einen Punktestand von 86,50 und belegte damit den zweiten Platz unter allen bewerteten Modellen; bei den MMLU- und CEval-Benchmark-Tests erzielte es jeweils hohe Ergebnisse von 89,71 und 90,44, was seine Wettbewerbsfähigkeit in Bezug auf Sprachverstehen und Bewertung der chinesischen Fähigkeiten zeigt.
LongCat-Flash-Chat überzeugt durch eine hohe Inferenzgeschwindigkeit und hervorragende Agentenleistungen. Nicht nur technisch führend gegenüber Konkurrenten, sondern auch durch seine Open-Source-Initiativen bietet es Entwicklern mehr Forschungs- und Anwendungsmöglichkeiten.
Projektadresse: https://github.com/meituan-longcat/LongCat-Flash-Chat
Webseite zur Demo: https://longcat.ai/