Microsoft veröffentlicht OmniParser V2: Ermöglicht es großen Sprachmodellen, GUIs zu „verstehen“ und zu bedienen

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 2 Minuten Lesezeit · Feb 17, 2025

1.3k

Microsoft hat kürzlich ein Upgrade seines Windows-großen Sprachmodells OmniParser veröffentlicht – OmniParser-v2.0. Dieses Modell kann Desktop- und Fensterelemente erkennen und mit ihnen interagieren, was einen weiteren Schritt in Richtung vollautomatischer Computerbedienung durch AI-Agenten darstellt.

Die Kernfähigkeit von OmniParser-v2.0 liegt in seiner Fähigkeit zur Wahrnehmung und Interaktion mit der Desktop-Umgebung. Dies bedeutet, dass AI-Agenten in Verbindung mit diesem Modell nicht nur Anweisungen des Benutzers verstehen, sondern auch direkt auf der Ebene des Windows-Betriebssystems Aktionen ausführen können, wie z. B. das Öffnen bestimmter Fenster, das Lokalisieren und Klicken von Schaltflächen und das Eingeben von Text.

Bemerkenswert ist, dass OmniParser-v2.0 in andere Modelle wie DeepSeek-R1 integriert werden kann. Diese Skalierbarkeit ermöglicht den Aufbau leistungsfähigerer und flexiblerer AI-Agenten.

Branchenexperten weisen darauf hin, dass sich mit dem Aufkommen von Tools wie OmniParser-v2.0 die Downstream-Toolchain von AI-Agenten stetig verbessert. Von der Browser- bis zur Betriebssystemsteuerung erweitert sich der Funktionsumfang von AI-Agenten ständig und deutet auf eine zunehmende Rolle von KI in Bereichen wie automatisierter Büroarbeit und persönlichen Assistenten hin. Wir nähern uns schrittweise einem von KI angetriebenen, intelligenteren und effizienteren Rechenzeitalter.

Adresse: https://huggingface.co/microsoft/OmniParser-v2.0

OmniParser Windows-Betriebssystem AIAgent Automatisierung

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

Manychat erhält 140 Millionen US-Dollar Finanzierung zur Förderung seiner KI-basierten Messaging-Plattform

In der heutigen Zeit, in der KI (Künstliche Intelligenz) und Chatbots wie Pilze aus dem Boden schießen, sind Werkzeuge, die tatsächlich einen Mehrwert für Unternehmen und Verbraucher bieten, selten. Kürzlich gab das in diesem Bereich erfolgreiche Startup Manychat den Abschluss einer Serie-B-Finanzierungsrunde in Höhe von 140 Millionen US-Dollar bekannt, angeführt von Summit Partners. Manychat wurde 2015 gegründet und bietet Unternehmen Tools zur Verwaltung und Automatisierung von Dialogen über mehrere Messaging-Kanäle hinweg. Das Unternehmen ist derzeit in 170...

Apr 23, 2025

Toyota und Gorilla entwickeln intelligente Lagerlösungen

Die Abteilung für Materialtransport und Lagerlösungen von Toyota in Thailand gibt eine Partnerschaft mit Gorilla, einem Anbieter von KI-Sicherheit und -Intelligenz, bekannt. Gemeinsam werden sie intelligente Werkzeuge für die Lagerautomatisierung entwickeln. Die Zusammenarbeit kombiniert Gorillas KI-Lösungen mit Toyotas Expertise in Logistik und Materialtransport, um neue Innovationen für intelligente Fabriken zu schaffen. Diese Werkzeuge sollen praktische Probleme im täglichen Betrieb lösen, wie z. B. fehlerhafte Teileanforderungen, ineffiziente Lagerhaltung und hohe Kosten durch Verzögerungen, und somit intelligente Technologien einsetzen.

Apr 11, 2025

Writer推出AI-HQ-Plattform: KI-Agenten für Unternehmensprozesse

Writer präsentiert seine neue AI-HQ-Plattform, die es Unternehmen ermöglicht, KI-Agenten nahtlos in ihre gesamten Arbeitsabläufe zu integrieren und so die Effizienz zu steigern.

Apr 11, 2025

Die geheime Krise des KI-Vertriebsautomatisierungs-Startups 11x: Kundenbetrug und interne Managementprobleme

Mar 25, 2025

150

OpenAI-Manager prognostiziert: KI wird Ende 2025 menschliche Programmierer übertreffen

In einem kürzlich erschienenen Podcast sagte Kevin Weil, Chief Product Officer von OpenAI, voraus, dass künstliche Intelligenz bis Ende des Jahres menschliche Programmierer in Codier-Benchmark-Tests übertreffen wird. Diese Aussage machte er im Gespräch mit Varun Mayya, CEO von Avalon, und YouTuber Tanmay Bhat. Kevin blickte auf die rasante Entwicklung der künstlichen Intelligenz in den letzten Jahren zurück und betonte die bemerkenswerte Leistung von KI-Codierungsmodellen.

Mar 17, 2025

170

OpenAI enthüllt: GPT-5 kommt bald! CPO prognostiziert 99% AI-Codeautomatisierung noch in diesem Jahr!

In einem kürzlich geführten, viel beachteten Interview enthüllte Kevin Weil, Chief Product Officer (CPO) von OpenAI, mehrere wichtige Neuigkeiten, die in der Branche für großes Aufsehen sorgten. Am bemerkenswertesten sind die Ankündigung des mit Spannung erwarteten GPT-5 und die Prognose zum Fortschritt der AI-Codeautomatisierung. Zu dem Zeitpunkt der Veröffentlichung von GPT-5 äußerte sich Kevin Weil zwar nicht konkret, betonte aber: „Ich kann Ihnen kein genaues Datum nennen, aber GPT-5 wird bald erscheinen. Wir arbeiten bereits intensiv daran.“

Mar 17, 2025

120

KI-gestützter Browser? Das Open-Source-Wunder Browser Use erobert die Tech-Szene! Entwickler sind begeistert!

Kürzlich hat ein Open-Source-Projekt namens Browser Use die Tech-Szene und die Entwickler-Community im Sturm erobert! Dieses Tool verleiht KI sozusagen Flügel und ermöglicht es ihr, einen Browser wie ein Mensch zu bedienen. Mittels natürlicher Sprache kann man die KI anweisen, automatisiert verschiedene Webaufgaben zu erledigen. Seine leistungsstarke Automatisierung und die flexible Bereitstellung haben weltweit Technologie-Enthusiasten begeistert und auf X (vormals Twitter) für Furore gesorgt. Browser Use verbreitet sich rasant und treibt die Entwicklung der KI im Bereich der Browserautomatisierung voran.

Mar 10, 2025

220

ConverzAI erhält 16 Millionen US-Dollar Finanzierung, KI-basierte Rekrutierung steigert Unternehmenseffizienz um 30%

Das in Redmond, Washington, ansässige Startup ConverzAI hat kürzlich eine Serie-A-Finanzierung in Höhe von 16 Millionen US-Dollar abgeschlossen, um Produktinnovationen voranzutreiben und die Marktreichweite zu erweitern. Die Finanzierungsrunde wurde von Menlo Ventures angeführt, mit Beteiligung von Left Lane Capital, Foundation Capital und Afore Capital. ConverzAI wurde 2019 gegründet und wird von CEO Ashw...

Feb 12, 2025

1.3k

OpenAI und SoftBank kooperieren: KI-System „Cristal“ für Unternehmen

OpenAI und SoftBank geben eine strategische Partnerschaft bekannt und präsentieren gemeinsam das Unternehmenssystem für Künstliche Intelligenz namens „Cristal“. Dieses System soll japanischen Unternehmen bei der Prozessautomatisierung helfen und Geschäftsmodelle neu gestalten. Angesichts des rasanten Fortschritts im Bereich der Künstlichen Intelligenz suchen immer mehr Unternehmen Wege zur Steigerung von Effizienz und Wettbewerbsfähigkeit durch digitale Transformation. Cristal ist die Antwort darauf. Bildquelle: Bild wurde mit KI generiert, Bildlizenzgeber Midjourney. Cristal wird Unternehmen...

Feb 5, 2025

1.4k

Open-Source AI-Assistent Pinokio aktualisiert auf Version 3.0: Benutzerdefinierte Benutzeroberfläche und Browserautomatisierung hinzugefügt

Das Open-Source-Tool zur Verwaltung von KI-Modellen, Pinokio, veröffentlicht Version 3.0 mit wichtigen neuen Funktionen wie benutzerdefinierter Benutzeroberfläche, optimierter Paketverwaltung und Browserautomatisierung. Dies vereinfacht den Prozess der lokalen Bereitstellung und Ausführung von Open-Source-KI-Modellen erheblich. Pinokio zeigt jetzt den von jeder Anwendung verwendeten Speicherplatz an. Zu den Highlights dieses Updates gehören: Die Benutzeroberfläche wurde umfassend überarbeitet und ermöglicht es Benutzern nun, das Erscheinungsbild der Startseite, der Anwendungsseite und des Terminals mithilfe von CSS-Code anzupassen; das Paketverwaltungssystem wurde auf UV als Python-Standard umgestellt.

Dec 20, 2024

2.5k

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick