智谱GLM-PC开放体验：自主操作电脑的多模态Agent升级

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Jan 23, 2025

444

Die in Peking ansässige Technologiefirma Zhihu Zhang Chapter hat kürzlich ein Upgrade ihres intelligenten Agenten ZhiPu GLM-PC angekündigt und diesen der Öffentlichkeit zugänglich gemacht. Als weltweit erster multimodaler intelligenter Agent, der einen Computer selbstständig bedienen kann, basiert GLM-PC auf dem multimodalen großen Sprachmodell CogAgent von Zhihu. Benutzer benötigen lediglich einen einfachen Return-Befehl, um diesen innovativen Computer-Assistenten zu erleben.

Seit der Veröffentlichung von GLM-PC v1.0 am 29. November 2024 befand sich die Software in der Betaphase. Diese Version brachte den „Tiefen Denk“-Modus mit sich, der neue Funktionen für logisches Schließen und Codegenerierung hinzufügte und gleichzeitig die Unterstützung für Windows-Systeme einführte. Die Fähigkeiten von GLM-PC umfassen Codegenerierung, logische Ausführung und das Verständnis grafischer Benutzeroberflächen (GUI), was sein großes Potenzial für die intelligente Bedienung demonstriert.

In Bezug auf Codegenerierung und logische Ausführung verfügt GLM-PC über die Fähigkeit, Ziele und Ressourcen umfassend zu analysieren. Es kann einen Ausführungsplan erstellen, große Aufgaben in kleinere, überschaubare Unteraufgaben zerlegen und so eine effiziente Aufgabenplanung ermöglichen. Nach der Aufgabenplanung kann der intelligente Agent das Codegenerierungsmodul zur zyklischen Ausführung starten, um die genaue Erledigung der Aufgabe sicherzustellen. Gleichzeitig verfügt GLM-PC über die Fähigkeit zum langen Denken, kann in Echtzeit Anpassungen und Korrekturen vornehmen, mit dem Benutzer interagieren und Lösungen optimieren.

In Bezug auf die Erkennung von Bildern und GUIs kann GLM-PC Elemente in grafischen Benutzeroberflächen wie Schaltflächen und Symbole genau erkennen und verstehen und auf der Grundlage der bisherigen Benutzeraktionen intelligente Empfehlungen geben. Seine Funktion zur semantischen Bildanalyse kann komplexe Bilder tiefgehend analysieren und wichtige Informationen wie Trends und Kennzahlen extrahieren. Darüber hinaus kann GLM-PC Bild- und Textinformationen kombinieren, um dem Benutzer umfassende Wahrnehmungsergebnisse zu liefern und ihn bei der Erstellung präziser Aktionspläne zu unterstützen.

Mit der fortschreitenden Entwicklung der künstlichen Intelligenz bietet die Einführung von ZhiPu GLM-PC den Benutzern zweifellos ein effizienteres und intelligenteres Computererlebnis und markiert einen wichtigen Fortschritt in der Mensch-Computer-Interaktion.

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

Ehemaliger Leiter der AI-Produkte bei ByteDance, Liu Liaoqian, gründete das Unternehmen 'Extremes Kontext' und konzentriert sich auf die Entwicklung eines Marketing-Multimodal-Agents. Dank seiner reichen Erfahrung im Bereich AIGC schloss er schnell eine Finanzierungsrunde von mehreren Millionen Dollar ab. Liu Liaoqian arbeitete zuvor bei Tencent und ByteDance und beschäftigte sich seit 2019 mit AIGC-Technologien, was Aufmerksamkeit in der Branche erregte.

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

NVIDIA veröffentlicht das multimodale Verständnismodell OmniVinci, das in verschiedenen Benchmarks um 19,05 Punkte besser abschneidet als führende Modelle. Das Modell verwendet nur 0,2 Billionen Trainings-Token und erreicht eine sechsmal höhere Daten-effizienz als Konkurrenten. Es soll die einheitliche Wahrnehmung von Bildern, Audio und Text ermöglichen und die multimedialen Fähigkeiten von Maschinen voranbringen.

Meitu veröffentlicht AI-Bearbeitungs-Agent RoboNeo: Bildbearbeitung im Chats und automatisches Entpacken von Ebenen, Effizienz auf maximalem Niveau

美图 präsentiert KI-Assistent RoboNeo für dialogbasiertes Bildbearbeiten. Nutzer beschreiben Änderungen wie 'Hintergrund wechseln' in natürlicher Sprache – präzise Echtzeitbearbeitung ohne Fachkenntnisse. Intuitive Oberfläche mit Vorschau ermöglicht professionelle Ergebnisse für alle.....

Opera Neon Browser stellt tiefgehendes AI-Agent-ODRA vor

Kürzlich gab Opera bekannt, dass der Opera Neon Browser eine neue AI-Funktion namens Opera Deep Research Agent (im Folgenden als ODRA bezeichnet) einführen wird. Dies markiert einen entscheidenden Schritt in der Entwicklung der AI-Ökologie des Browsers von Opera und bietet den Nutzern eine neue effiziente Lösung zur Bewältigung komplexer Anfragen. Die Entwicklung von ODRA dauerte mehr als zwei Jahre und ist ein zentraler Bestandteil des selbstentwickelten AI-Motors von Opera. Nach Monaten kontinuierlicher Optimierung hat ODRA in Bezug auf die Leistung große Fortschritte gemacht.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

智谱GLM-PC开放体验：自主操作电脑的多模态Agent升级

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

​NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

Mistral AI stellt Plattform Studio vor und blickt auf die Entwicklung von Unternehmens-AI-Anwendungen

MiniMax präsentiert M2-Inferrenz-Modell: 230 Milliarden Parameter, 100 Token/S, speziell für intelligente Agenten entwickelt

Kimi CLI von Moonshot Open Source: Dual-Modus-Schaltung zwischen Befehlszeile und AI-Agent - Ein neues Werkzeug zur Steigerung der Entwicklereffizienz

Meitu veröffentlicht AI-Bearbeitungs-Agent RoboNeo: Bildbearbeitung im Chats und automatisches Entpacken von Ebenen, Effizienz auf maximalem Niveau

Opera Neon Browser stellt tiefgehendes AI-Agent-ODRA vor

Tageszeitung AI: OpenAI veröffentlicht Browser Atlas; Qwen3-VL fügt zwei Modellgrößen hinzu: 2B und 32B; Baidu veröffentlicht einen großen Modell zur Wiederholung der Beweisverstärkung

Der Wert der Start-up-Firma Fal.ai, die sich auf multimodales KI-System spezialisiert hat, liegt bereits über 4 Milliarden Dollar und verdreifachte sich innerhalb von sechs Monaten

OpenAI-Browser Atlas erscheint beeindruckend: Agent-Modus schlägt Chrome, Google-Aktienkurs fällt sofort!

Empfohlene verwandte KI-Nachrichten

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

​NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

Mistral AI stellt Plattform Studio vor und blickt auf die Entwicklung von Unternehmens-AI-Anwendungen

MiniMax präsentiert M2-Inferrenz-Modell: 230 Milliarden Parameter, 100 Token/S, speziell für intelligente Agenten entwickelt

Kimi CLI von Moonshot Open Source: Dual-Modus-Schaltung zwischen Befehlszeile und AI-Agent - Ein neues Werkzeug zur Steigerung der Entwicklereffizienz

Meitu veröffentlicht AI-Bearbeitungs-Agent RoboNeo: Bildbearbeitung im Chats und automatisches Entpacken von Ebenen, Effizienz auf maximalem Niveau

Opera Neon Browser stellt tiefgehendes AI-Agent-ODRA vor

Tageszeitung AI: OpenAI veröffentlicht Browser Atlas; Qwen3-VL fügt zwei Modellgrößen hinzu: 2B und 32B; Baidu veröffentlicht einen großen Modell zur Wiederholung der Beweisverstärkung

Der Wert der Start-up-Firma Fal.ai, die sich auf multimodales KI-System spezialisiert hat, liegt bereits über 4 Milliarden Dollar und verdreifachte sich innerhalb von sechs Monaten

OpenAI-Browser Atlas erscheint beeindruckend: Agent-Modus schlägt Chrome, Google-Aktienkurs fällt sofort!

GEO Services

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6