Microsoft hat kürzlich ein bedeutendes Upgrade seines Open-Source-Projekts AgentUFO angekündigt und die neue Version UFO² veröffentlicht. Diese Version bietet zusätzliche Betriebssystemfunktionen und ist tief in das Windows-System integriert. Dies erhöht nicht nur die Effizienz bei der Automatisierung von Aufgaben, sondern ermöglicht auch die bequemere Durchführung komplexer Vorgänge.
Ein herausragendes Merkmal von UFO² ist die direkte Verwendung der nativen Windows-APIs und COM-Schnittstellen. Im Vergleich zur traditionellen Robotic Process Automation (RPA) ermöglicht dies eine effizientere und präzisere Ausführung komplexer Geschäftsprozesse. So kann beispielsweise die Umwandlung von Tabellendaten in Diagramme in Excel mit herkömmlicher RPA durch mehrfaches simuliertes Klicken erfolgen, während UFO² dies mit einem einzigen API-Aufruf erledigt und umständliche visuelle Lokalisierung und Maussimulationen vermeidet.
Testdaten zeigen, dass UFO² eine deutlich höhere Erfolgsrate bei der Automatisierung von Aufgaben aufweist als OpenAIs Operator. In verschiedenen Testszenarien erreichte UFO² Erfolgsraten von 30,5 % und 32,7 %, während Operator nur 20,8 % und 14,3 % erreichte. Darüber hinaus ist UFO² bei der Bearbeitung komplexer Aufgaben und der Anwendung übergreifenden Operationen deutlich überlegen und zeigt eine höhere Anpassungsfähigkeit an nicht-standardisierte Benutzeroberflächen.
Die zentrale Steuerungskomponente HostAgent ist für die Analyse von Benutzeranweisungen, die Verwaltung des Anwendungslebenszyklus und die Koordination der Ausführung von AppAgents verantwortlich. Wenn ein Benutzer eine Automatisierungsanweisung in natürlicher Sprache erteilt, zerlegt HostAgent die Aufgabe in eine Reihe von Unteraufgaben und weist diese den entsprechenden AppAgents zur Ausführung zu.
Jeder AppAgent konzentriert sich auf eine bestimmte Windows-Anwendung und kann Aufgaben mit höherer Effizienz ausführen. UFO² führt außerdem einen hybriden Kontrollmechanismus ein, der visuelle Eingaben und Anwendungsmetadaten kombiniert, um die Erkennung von GUI-Elementen zu verbessern. Diese Innovation ermöglicht es AppAgents, sowohl in Standard- als auch in nicht-standardisierten Umgebungen stabil zu arbeiten.
Eine weitere bemerkenswerte Innovation ist der Bild-in-Bild-Modus von UFO². Diese Funktion ermöglicht die Trennung von Automatisierungsaufgaben und dem Hauptdesktop des Benutzers. Der Benutzer kann auf seinem Hauptdesktop normal arbeiten, während Automatisierungsaufgaben auf einem separaten virtuellen Desktop ausgeführt werden. Dieses Design verbessert die Benutzerfreundlichkeit und reduziert Systemstörungen und potenzielle Sicherheitsrisiken.
Die neuen Funktionen von UFO² zeigen die neuesten technologischen Fortschritte von Microsoft im Bereich der Automatisierung und bieten Benutzern eine effizientere und flexiblere Arbeitsumgebung.
Open-Source-Adresse: https://github.com/microsoft/UFO?tab=readme-ov-file
Wichtigste Punkte:
1. 🚀 UFO² ist tief in das Windows-System integriert, kann native APIs direkt aufrufen und die Automatisierungseffizienz steigern.
2. 📊 UFO² weist eine deutlich höhere Erfolgsrate bei der Automatisierung von Aufgaben als OpenAIs Operator auf und liefert hervorragende Ergebnisse.
3. 🖥️ Der neue Bild-in-Bild-Modus trennt Automatisierungsaufgaben von den Benutzereingaben und verbessert die Benutzerfreundlichkeit.