Am 11. August stellte Zhipu Technology offiziell sein neuestes visuelles Verständnismodell – GLM-4.5V – vor. Dieses Modell wurde auf Basis seines neuen Textmodells GLM-4.5-Air trainiert und folgt der Technologie-Strategie des vorherigen visuellen Inferenzmodells GLM-4.1V-Thinking. Es verfügt über beeindruckende 106 Milliarden Parameter und 12 Milliarden aktivierte Parameter. Besonders erwähnenswert ist, dass GLM-4.5V eine „Denkmodus“-Schaltfunktion hinzugefügt hat. Benutzer können entscheiden, ob sie diesen Modus aktivieren möchten, um bei Aufgaben noch flexibler zu arbeiten.

Diese Modellvermögen im Bereich der visuellen Fähigkeiten ist bemerkenswert. Es kann die Hühnerflügel von McDonald’s und KFC leicht unterscheiden und analysiert sie aus verschiedenen Perspektiven wie Aussehen, Farbe und Textur. Darüber hinaus kann GLM-4.5V an Herausforderungen zur Bildortbestimmung teilnehmen und sogar gute Ergebnisse erzielen. In einem Wettbewerb erreichte es eine herausragende Platzierung und übertraf 99 % der menschlichen Teilnehmer, wobei es auf Platz 66 landete. Zhipu zeigte auch die außergewöhnliche Leistung dieses Modells in 42 Benchmark-Tests. In den meisten Tests erzielte es höhere Punktzahlen als andere Modelle mit ähnlicher Größe.

Derzeit ist GLM-4.5V auf Open-Source-Plattformen wie Hugging Face, Moba und GitHub verfügbar. Benutzer können es kostenlos herunterladen und verwenden, zudem wird eine FP8-Quantisierungsversion angeboten. Um das Modell besser nutzen zu können, hat Zhipu eine Desktop-Assistenten-Anwendung veröffentlicht, die Echtzeit-Bildschirmfotos und -Aufzeichnungen unterstützt und Benutzern bei verschiedenen visuellen Inferenzaufgaben hilft, einschließlich Code-Unterstützung und Dokumenteninterpretation.

In praktischen Tests zeigte GLM-4.5V beeindruckende Fähigkeiten. Es kann die Position basierend auf hochgeladenen Bildern bestimmen. Obwohl es manchmal kleine Fehler macht, bleibt der Inferenzprozess sehr reichhaltig. Bei der Bearbeitung von Webseiten kann es Seiten generieren, die sehr ähnlich sind, indem es Screenshots erstellt, was seine starke Wiederherstellungsfähigkeit zeigt.

GLM-4.5V zeigt nicht nur hervorragende Leistungen im Bereich visueller Verständnis, sondern auch großes Potenzial in Agent-Anwendungen. Mit der kontinuierlichen Entwicklung dieser Technologie haben wir allen Grund, zu erwarten, dass sie in Zukunft vielen Aspekten des Lebens mehr Bequemlichkeit bringen wird.