In dem Bereich des Computer-Intelligence-Agents (Computer Use Agent) gab es kürzlich eine spannende Entwicklung. Das Forscherteam der Shanghai Jiao Tong University und von SII hat mit nur 312 menschlich annotierten Betriebspfaden einen neuen Open-Source-Computer-Intelligence-Agent namens PC Agent-E trainiert, dessen Leistung um 241 % verbessert wurde und die bekannte Claude3.7Sonnet übertroffen hat, sodass er nun das neue optimale Modell im Windows-System darstellt.
Seitdem Anthropic den Claude Computer Use vorgestellt hat, hat sich die Entwicklung von Computer-Intelligence-Agenten stets stark auf der Bildfläche gehalten. OpenAI hat daraufhin ebenfalls den Operator veröffentlicht, um die Fähigkeiten von Computer-Intelligence-Agenten durch verstärktes Lernen zu steigern. Allerdings ist es im Industrieumfeld weit verbreitet, dass dafür große Mengen an Pfaddaten und komplexe verstärkte Lernalgorithmen erforderlich sind. Dem entgegen haben das Team der Shanghai Jiao Tong University und von SII ihre Ergebnisse demonstriert: Wenige hochwertige Daten reichen aus, um das Potenzial eines Agents zu entfesseln.

Der Schlüssel zu dieser Forschung liegt in der effizienten Nutzung menschlicher Betriebspfade. Das Forscherteam benötigte lediglich einen Tag mit zwei Forschern und einem entwickelten Tool namens PC Tracker, um 312 echte Betriebspfade zu sammeln. Diese Pfade enthalten Aufgabenbeschreibungen, Screenshots sowie detaillierte Tastatureingaben und Mausoperationen, was die Genauigkeit der Daten sicherstellt. Nach der Datensammlung führte das Team auch "Chain-of-Thought Completion" durch, bei dem für jede Aktion der zugrunde liegende Gedankengang hinzugefügt wurde, um die Daten noch vollständiger zu gestalten.
Um die Leistung des Modells weiter zu verbessern, implementierte das Team die Technik "Trajectory Enhancement". Indem sie mit Claude3.7Sonnet für jeden Schritt mehrere plausible Aktionen simulierten, erhöhte sich nicht nur die Vielfalt der Pfaddaten, sondern auch der Effizienz der Ausbildung deutlich. Letztendlich zeigte PC Agent-E bei Tests im WindowsAgentArena-V2 überlegenste Resultate, sogar über dem "extended thinking" Modus von Claude3.7Sonnet hinausgehend.

Diese Forschungsresultate deuten darauf hin, dass starke intelligente Agenten mit geringeren, aber qualitativ hochwertigen Daten trainiert werden können, ohne auf riesige annotierte Datensätze zurückzugreifen. Dadurch wird ein Weg gewiesen für zukünftige, intelligenter entwickelte digitale Vertretungen. Das Team glaubt auch, dass durch Verbesserung der Qualität der Pfaddaten die Datenanforderungen gesenkt und die Autonomie der Intelligenzagenten erhöht werden kann.
Artikeladresse: https://arxiv.org/abs/2505.13909
Codeadresse: https://github.com/GAIR-NLP/PC-Agent-E
Modelladresse: https://huggingface.co/henryhe0123/PC-Agent-E
Datensatzadresse: https://huggingface.co/datasets/henryhe0123/PC-Agent-E