CogAgent

Open-Source GUI-Agent basierend auf einem End-to-End visuellen Sprachmodell (VLM)

Normales ProduktProgrammierungVisuelles SprachmodellGUI-Agent

Website öffnen

CogAgent ist ein GUI-Agent, der auf einem visuellen Sprachmodell (VLM) basiert und über Screenshots und natürliche Sprache eine bidirektionale (chinesisch und englisch) Interaktion ermöglicht. CogAgent hat signifikante Fortschritte in Bezug auf GUI-Wahrnehmung, Genauigkeit der Inferenzvorhersage, Vollständigkeit des Aktionsraums und Aufgabenverallgemeinerung erzielt. Das Modell wurde bereits im GLM-PC-Produkt von ZhipuAI eingesetzt und soll Forschern und Entwicklern helfen, die Forschung und Anwendung von GUI-Agenten auf Basis visueller Sprachmodelle voranzutreiben.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

CogAgent

CogAgent Neueste Verkehrssituation

CogAgent Besuchstrend

CogAgent Geografische Verteilung der Besuche

CogAgent Traffic-Quellen

CogAgent Alternativen

CogAgent — Open-Source GUI-Agent basierend auf einem End-to-End visuellen Sprachmodell (VLM)

CogAgent-9B-20241220 — CogAgent-9B-20241220 ist ein auf visuellen Sprachmodellen basierendes GUI-Agentenmodell.

AgentCPM-GUI — Open Source Mobile-GUI Intelligent-Agent, unterstützt chinesische und englische Anwendungsbetrieb.

DeepSeek-VL2-Tiny — Fortgeschrittenes großes visuelles Sprachmodell mit Mixture-of-Experts (MoE)

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF — Quantisiertes, großes Sprachmodell basierend auf einem spezifischen Modell, geeignet für Aufgaben der natürlichen Sprachverarbeitung.

Zuverlässiges Sprachmodell (ZSM) — Testen Sie das zuverlässige Sprachmodell (ZSM) von Cleanlab im Browser.

MiscNinja — Fortschrittliches Modell der natürlichen Sprachverarbeitung

UI-TARS-Desktop — Eine GUI-Agenten-Anwendung basierend auf dem UI-TARS (visuelles Sprachmodell), die die Steuerung des Computers mittels natürlicher Sprache ermöglicht.

Inst-Inpaint — Bildreparatur-Algorithmus basierend auf natürlicher Sprachverarbeitung

Ava PLS — Lokales Desktop-Tool zur Sprachverarbeitung

PaliGemma — Googles hochmodernes, offenes visuelles Sprachmodell

CogVLM — Leistungsstarkes Open-Source-visuelles Sprachmodell

SmolVLM — Effizientes, quelloffenes visuelles Sprachmodell

Ultravox.ai — Sprach-KI der nächsten Generation für natürliche Conversational AI Sprach-Agenten.

PixelLLM — Pixel-ausgerichtetes Sprachmodell

Sequel — Daten-Insights durch natürliche Sprachsuche in Datenbanken schnell gewinnen.

MDLM — Ein effizientes, maskiertes Diffusions-Sprachmodell.

LongLLaMA — Großes Sprachmodell zur Verarbeitung langer Texte

Genie KI — Genie ist ein KI-Assistent, der mithilfe von natürlicher Sprachverarbeitung Daten abfragt und analysiert.

InternLM-XComposer-2.5 — Ein multifunktionales, großes visuelles Sprachmodell

Beagle14-7B — Leistungsstarkes chinesisches Sprachmodell

Llama-Agentic-System — System-Agent-Komponente des Llama 3.1-Modells

MaLA-500 — Großes Sprachmodell, das 534 Sprachen abdeckt

Fixie.ai — Entwicklung einer KI für natürliche, menschenähnliche Kommunikation in Echtzeit

Boff AI — boff.ai ist ein KI-Assistent, der Nutzern intelligente Spracherkennungs- und natürliche Sprachverarbeitungsdienste bietet.

OpenVoiceChat — Führen Sie natürliche Sprachgespräche mit großen Sprachmodellen.

BEXI.ai — Kostenloses, menschenfreundliches Tool für natürliche Sprach-KI

ShowUI — Ein visuell-sprachlich-handlungsbasiertes Modell für die visuelle GUI-Agenten-Steuerung.

Mistral-7B-v0.3 — Ein großes Sprachmodell mit erweitertem Vokabular.

Sprachwal — Sprachwal, eine intelligente Plattform für die Sprachverarbeitung