Kürzlich hat das China Academy of Information and Communications Technology (CAICT) offiziell das „Fangsheng“-Benchmarksystem 3.0 eingeführt, was eine weitere bedeutende Fortschritt in der Bewertung von Künstlicher Intelligenz (KI) in China darstellt. Diese neue Version wurde umfassend aktualisiert und bietet nicht nur Tests für grundlegende Modellattribute, sondern bewertet auch systematisch Parametergrößen und Rechenleistung des Modells. Darüber hinaus legt das System zukunftsorientiert Schwerpunkte auf fortgeschrittene intelligente Tests, mit Fokus auf zehn hochentwickelte Fähigkeiten wie universelle Modalitätserfassung, langfristiges Gedächtnis und eigenständiges Lernen, und bietet tiefere, anwendungsbasierte Bewertungen für Schlüsselbranchen wie Industrieproduktion, Grundlagenwissenschaften und Finanzen.

Um die Umsetzung von „Fangsheng“ 3.0 besser zu unterstützen, hat das CAICT in verschiedenen Bereichen die Infrastruktur für Bewertungssysteme gestärkt. Zunächst plant es, die Ressourcen für hochwertige Testdaten zu erweitern und 3 Millionen zusätzliche Datensätze hinzuzufügen, um den Anforderungen an multilinguale, multiaufgabenbezogene und multiskenario-basierte Modellbewertungen gerecht zu werden. Darüber hinaus wird das CAICT systematisch Forschung und Anwendung fortschrittlicher Testmethoden betreiben und sich auf die Lösung technischer Herausforderungen bei der Bewertung großer Modelle konzentrieren, beispielsweise auf die Synthese und Qualitätseinschätzung von hochwertigen Testdaten. Zudem wird das CAICT eine neue Generation intelligenten Bewertungsplattformen aufbauen und Simulationstests mit Multi-Agenteninteraktion und Umweltwahrnehmung hinzufügen, um die Bewertungsanforderungen an kooperative Interaktionen und dynamische Umweltanpassungsfähigkeit im komplexen Szenario zu erfüllen.

Seit 2024 führt das CAICT alle zwei Monate Benchmark-Tests für große Modelle durch. In der jüngsten Runde wurden 141 große Modelle und 7 Agenten bewertet, wobei grundlegende Fähigkeiten, logisches Denken, Code-Anwendung und Multimodalitätsverständnis geprüft wurden. Die Testergebnisse zeigen, dass GPT-5 von OpenAI weiterhin in der Gesamtleistung führt, während die Modelle Qwen3-Max-Preview von Alibaba und Kimi K2 von Moonshot AI gute Leistungen zeigten. Bei der Bewertung von Multimodalmodellen gab es Fortschritte bei der Bildverarbeitung, aber noch Verbesserungspotenzial bei komplexen logischen Aufgaben.

Auch bei der Bewertung der Code-Anwendungsfähigkeit zeigte sich, dass sie zwar bei einfachen Funktionstasks gut abschnitt, aber in realen Projektentwicklungen immer noch Schwächen aufweist. Dies zeigt, dass der technologische Wettbewerb zwischen In- und Ausland weiterhin intensiv ist und Agenten in Bezug auf Multimodalität und komplexe Informationsverarbeitung noch weiterarbeiten müssen.

Das CAICT wird in Zukunft die Entwicklungstechnologie für die Bewertung großer Modelle weiter stärken und die Glaubwürdigkeit und Autorität der Bewertung verbessern, um die Vorreiterinnovationen in der KI und die Entwicklung der neuen Industrie zu unterstützen.