Zhipu veröffentlicht ein neues visuelles großes Modell GLM-4.5V, das problemlos die Hühnchenmarken unterscheiden kann!

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Aug 12, 2025

Am 11. August stellte Zhipu Technology offiziell sein neuestes visuelles Verständnismodell – GLM-4.5V – vor. Dieses Modell wurde auf Basis seines neuen Textmodells GLM-4.5-Air trainiert und folgt der Technologie-Strategie des vorherigen visuellen Inferenzmodells GLM-4.1V-Thinking. Es verfügt über beeindruckende 106 Milliarden Parameter und 12 Milliarden aktivierte Parameter. Besonders erwähnenswert ist, dass GLM-4.5V eine „Denkmodus“-Schaltfunktion hinzugefügt hat. Benutzer können entscheiden, ob sie diesen Modus aktivieren möchten, um bei Aufgaben noch flexibler zu arbeiten.

Diese Modellvermögen im Bereich der visuellen Fähigkeiten ist bemerkenswert. Es kann die Hühnerflügel von McDonald’s und KFC leicht unterscheiden und analysiert sie aus verschiedenen Perspektiven wie Aussehen, Farbe und Textur. Darüber hinaus kann GLM-4.5V an Herausforderungen zur Bildortbestimmung teilnehmen und sogar gute Ergebnisse erzielen. In einem Wettbewerb erreichte es eine herausragende Platzierung und übertraf 99 % der menschlichen Teilnehmer, wobei es auf Platz 66 landete. Zhipu zeigte auch die außergewöhnliche Leistung dieses Modells in 42 Benchmark-Tests. In den meisten Tests erzielte es höhere Punktzahlen als andere Modelle mit ähnlicher Größe.

Derzeit ist GLM-4.5V auf Open-Source-Plattformen wie Hugging Face, Moba und GitHub verfügbar. Benutzer können es kostenlos herunterladen und verwenden, zudem wird eine FP8-Quantisierungsversion angeboten. Um das Modell besser nutzen zu können, hat Zhipu eine Desktop-Assistenten-Anwendung veröffentlicht, die Echtzeit-Bildschirmfotos und -Aufzeichnungen unterstützt und Benutzern bei verschiedenen visuellen Inferenzaufgaben hilft, einschließlich Code-Unterstützung und Dokumenteninterpretation.

In praktischen Tests zeigte GLM-4.5V beeindruckende Fähigkeiten. Es kann die Position basierend auf hochgeladenen Bildern bestimmen. Obwohl es manchmal kleine Fehler macht, bleibt der Inferenzprozess sehr reichhaltig. Bei der Bearbeitung von Webseiten kann es Seiten generieren, die sehr ähnlich sind, indem es Screenshots erstellt, was seine starke Wiederherstellungsfähigkeit zeigt.

GLM-4.5V zeigt nicht nur hervorragende Leistungen im Bereich visueller Verständnis, sondern auch großes Potenzial in Agent-Anwendungen. Mit der kontinuierlichen Entwicklung dieser Technologie haben wir allen Grund, zu erwarten, dass sie in Zukunft vielen Aspekten des Lebens mehr Bequemlichkeit bringen wird.

GLM-4.5V ZhipuTechnologie VisuellesVerständnismodell AI-Neologismus

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

Tencent Hunyuan startet ersten interaktiven KI-Podcast in China. Nutzer können per Sprache oder Text live Fragen an Moderatoren und Gäste stellen, was die Einseitigkeit traditioneller Podcasts durchbricht und Interaktivität sowie Informationszugang verbessert.....

Oct 29, 2025

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Das Sprachteam von Douyin stellt eine vollautomatische AI-Mehrpersonen-Hörspiel-Produktionsmethode vor, die Romane automatisch in Mehrpersonen-Sprecherspiele umwandeln kann. Die Genauigkeit der Rollenerkennung erreicht 98 % und ist mit dem Niveau professioneller Hörspiele vergleichbar, wodurch die Effizienz der Produktion von AI-Hörinhalten erheblich gesteigert wird.

Oct 29, 2025

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

Qualcomm hat zwei Cloud-AI-Inferring-Chips, AI200 und AI250, vorgestellt und plant deren kommerzielle Nutzung im Jahr 2026 bzw. 2027. Dies markiert den Übergang von Endgeräte-Chips zu einer vollständigen AI-Infrastruktur. Die Nachricht führte zu einem Anstieg des Aktienkurses um mehr als 20% an einem Tag und ist der größte Anstieg seit 2019. Im Gegensatz zur allseitigen Strategie von Nvidia konzentriert sich Qualcomm auf den Markt für große Modell-Inferring und betont die Vorteile der Energieeffizienz und Kosten.

Oct 29, 2025

100

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Bei der GTC-Messe 2025 stellte NVIDIA das Designkonzept 'Omniverse DSX Blueprint' für gigawattgroße AI-Rechenzentren vor und bezeichnete es als 'AI-Fabrik'. Dieses Konzept basiert auf dem Omniverse-Framework und unterstützt verschiedene Größen von 100 Millionen bis 1 Milliarde Watt. Es soll die effiziente Ausbildung und Ausführung großer KI-Modelle ermöglichen und den wachsenden Anforderungen an KI-Berechnungen gerecht werden. Es handelt sich um einen wichtigen Fortschritt in der Infrastruktur für künstliche Intelligenz.

Oct 29, 2025

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Das Doubao-Stimme-Team hat eine "automatisierte Produktion für AI-Mehrpersonen-Audio-Serien" vorgestellt, die die gesamte Produktionskette vom Roman-Text bis zum fertigen Hörspiel vollständig automatisiert. Keine Stimmenaufnahme, Schnitt oder menschliche Intervention erforderlich, was zu erheblichen Kosteneinsparungen und Effizienzsteigerungen führt. Das Ergebnis ist nahe an professionelles Niveau, wobei die Präzision der Rollenerkennung 98 % erreicht.

Oct 29, 2025

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

Ehemaliger Leiter der AI-Produkte bei ByteDance, Liu Liaoqian, gründete das Unternehmen 'Extremes Kontext' und konzentriert sich auf die Entwicklung eines Marketing-Multimodal-Agents. Dank seiner reichen Erfahrung im Bereich AIGC schloss er schnell eine Finanzierungsrunde von mehreren Millionen Dollar ab. Liu Liaoqian arbeitete zuvor bei Tencent und ByteDance und beschäftigte sich seit 2019 mit AIGC-Technologien, was Aufmerksamkeit in der Branche erregte.

Oct 29, 2025

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

SoulX-Podcast, ein Sprachmodell für Podcasts, erzeugt hochrealistische Stimmen. Es unterstützt lange Dauer, mehrere Sprecher und Sprachen, mit durchgängiger Qualität über 90 Minuten.....

Oct 29, 2025

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google stellt Pomelli vor, ein KI-Marketingtool, das automatisch maßgeschneiderte Inhalte für Websites erstellt. Ideal für KMU, um digitale Marketinglösungen einfach zu nutzen.....

Oct 29, 2025

180

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Die 360 Gruppe veröffentlichte eine unternehmensrelevante Intelligenzplattform und stellte das weltweit erste Intelligenz-Betriebssystem vor, das L2 bis L4 abdeckt. Zudem wurde die SEAF-Intelligenzfabrik aktualisiert. Die Plattform zielt darauf ab, Regierungen und Unternehmen mit einer einheitlichen AI-Lösung zu versorgen und die Implementierung der Industrieanpassung von "0 auf 1" zu "1 auf 10" zu fördern.

Oct 29, 2025

120

Huang Renxun widerspricht der Theorie des AI-Blasen, NVIDIA's neue Chips werden voraussichtlich 500 Milliarden Dollar Umsatz erzielen

Der CEO von NVIDIA, Huang Renxun, lehnte die Theorie des AI-Markt-Blasen auf der GTC-Konferenz in Washington ab und erwartet, dass die neuen Blackwell- und Rubin-Chips in den nächsten Quartalen 500 Milliarden Dollar Umsatz erzeugen werden und damit eine neue Wachstumsphase für das Unternehmen einleiten. Dies ist die erste GTC-Konferenz, die NVIDIA in der US-Hauptstadt veranstaltet.

Oct 29, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Zhipu veröffentlicht ein neues visuelles großes Modell GLM-4.5V, das problemlos die Hühnchenmarken unterscheiden kann!

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Huang Renxun widerspricht der Theorie des AI-Blasen, NVIDIA's neue Chips werden voraussichtlich 500 Milliarden Dollar Umsatz erzielen

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Huang Renxun widerspricht der Theorie des AI-Blasen, NVIDIA's neue Chips werden voraussichtlich 500 Milliarden Dollar Umsatz erzielen

GEO Services