Die in Peking ansässige Technologiefirma Zhihu Zhang Chapter hat kürzlich ein Upgrade ihres intelligenten Agenten ZhiPu GLM-PC angekündigt und diesen der Öffentlichkeit zugänglich gemacht. Als weltweit erster multimodaler intelligenter Agent, der einen Computer selbstständig bedienen kann, basiert GLM-PC auf dem multimodalen großen Sprachmodell CogAgent von Zhihu. Benutzer benötigen lediglich einen einfachen Return-Befehl, um diesen innovativen Computer-Assistenten zu erleben.

Seit der Veröffentlichung von GLM-PC v1.0 am 29. November 2024 befand sich die Software in der Betaphase. Diese Version brachte den „Tiefen Denk“-Modus mit sich, der neue Funktionen für logisches Schließen und Codegenerierung hinzufügte und gleichzeitig die Unterstützung für Windows-Systeme einführte. Die Fähigkeiten von GLM-PC umfassen Codegenerierung, logische Ausführung und das Verständnis grafischer Benutzeroberflächen (GUI), was sein großes Potenzial für die intelligente Bedienung demonstriert.

image.png

In Bezug auf Codegenerierung und logische Ausführung verfügt GLM-PC über die Fähigkeit, Ziele und Ressourcen umfassend zu analysieren. Es kann einen Ausführungsplan erstellen, große Aufgaben in kleinere, überschaubare Unteraufgaben zerlegen und so eine effiziente Aufgabenplanung ermöglichen. Nach der Aufgabenplanung kann der intelligente Agent das Codegenerierungsmodul zur zyklischen Ausführung starten, um die genaue Erledigung der Aufgabe sicherzustellen. Gleichzeitig verfügt GLM-PC über die Fähigkeit zum langen Denken, kann in Echtzeit Anpassungen und Korrekturen vornehmen, mit dem Benutzer interagieren und Lösungen optimieren.

In Bezug auf die Erkennung von Bildern und GUIs kann GLM-PC Elemente in grafischen Benutzeroberflächen wie Schaltflächen und Symbole genau erkennen und verstehen und auf der Grundlage der bisherigen Benutzeraktionen intelligente Empfehlungen geben. Seine Funktion zur semantischen Bildanalyse kann komplexe Bilder tiefgehend analysieren und wichtige Informationen wie Trends und Kennzahlen extrahieren. Darüber hinaus kann GLM-PC Bild- und Textinformationen kombinieren, um dem Benutzer umfassende Wahrnehmungsergebnisse zu liefern und ihn bei der Erstellung präziser Aktionspläne zu unterstützen.

Mit der fortschreitenden Entwicklung der künstlichen Intelligenz bietet die Einführung von ZhiPu GLM-PC den Benutzern zweifellos ein effizienteres und intelligenteres Computererlebnis und markiert einen wichtigen Fortschritt in der Mensch-Computer-Interaktion.