MetaGPT veröffentlicht RealDevWorld: 92% Genauigkeit schlägt Claude und testet AI-Entwicklung neu!

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · Sep 3, 2025

Kürzlich hat das MetaGPT-Team ein neues End-to-End-Automatisierungstestwerkzeug namens RealDevWorld vorgestellt, das in der AI-gestützten Softwareentwicklung großes Aufsehen erregt. Mit beeindruckenden Leistungsmerkmalen und effizienter Testfähigkeit erreichte dieses Werkzeug eine Genauigkeit von 92 % im RealDevBench-Test und übertraf bei der Bewertungskonsistenz Modelle wie Claude.

RealDevWorld: Eine revolutionäre Durchbruch in der automatisierten Testung

RealDevWorld ist ein neues Automatisierungstestwerkzeug, das vom MetaGPT-Team auf Basis seines Multi-Agenten-Frameworks entwickelt wurde. Es zielt darauf ab, den gesamten Prozess von der Codegenerierung bis zur Qualitätssicherung autonom zu gestalten. Mit dem AppEvalPilot-Modul simuliert dieses Werkzeug die systematische Vorgehensweise professioneller Testingenieure und kann Akzeptanztests gemäß Produktentwurf und Szenariogrenzen durchführen. Zudem unterstützt es umfassende Tests rund um die Uhr.

Im Vergleich zu traditionellen Testwerkzeugen verwendet RealDevWorld ein dynamisches Bewertungsmechanismus, das die Einschränkungen statischer Benchmark-Tests vermeidet und in der Lage ist, sich in Echtzeit an komplexe Entwicklungsbedingungen anzupassen. Seine Effizienz ist beeindruckend: Im Durchschnitt benötigt es 8–9 Minuten, um 15–20 Funktionskomponenten einer Anwendung umfassend zu bewerten, und jedes Testverfahren kostet etwa 0,26 US-Dollar, was die Testkosten für Entwicklungsteams deutlich senkt.

92 % Genauigkeit, Bewertungskonsistenz, die Claude übertrifft

In den RealDevBench-Tests zeigte RealDevWorld eine starke Leistung mit einer Genauigkeit von 92 % und übertraf bei der Bewertungskonsistenz das Modell Claude von Anthropic. Dieser Durchbruch geht auf die Optimierung des MetaGPT-Multi-Agenten-Kooperationsrahmens zurück und kombiniert die Stärken von GPT-4o und Claude3.5-Sonnet.

RealDevWorld kann durch intelligente Aufgabenaufteilung und Kooperationsmechanismen potenzielle Probleme im Code genau erkennen und hochwertige Testberichte erstellen. Laut AIbase zeigt diese Leistungsstärke, dass es sich hervorragend für komplexe Softwareentwicklungsprojekte (wie Codegenerierung, Debugging und Validierung) eignet, insbesondere für anspruchsvolle Unternehmensanwendungen mit hoher Zuverlässigkeit.

Vollständige Autonomie: Von der Codegenerierung bis zur Qualitätssicherung

System: Einheitlicher Code-Boden, drei Plattformen gleichzeitig

Einer der Hauptvorteile von RealDevWorld ist sein einheitlicher Code-Boden, der Desktop-, Mobile- und Web-Plattformen unterstützt. Das bedeutet, dass Entwickler keine separaten Testskripte für verschiedene Plattformen schreiben müssen, wodurch der Testprozess für mehrere Plattformen stark vereinfacht wird. Ob UI-Validierung für Webanwendungen, Interaktionsprüfung für mobile Anwendungen oder Funktionsbewertung für Desktopsoftware – RealDevWorld bietet eine konsistente Testerfahrung.

Durch die tiefgreifende Integration des Multi-Agenten-Architektur von MetaGPT kann RealDevWorld selbstständig Testfälle generieren, Regressionstests durchführen und detaillierte Diagnosefeedbacks bereitstellen. Sein dynamisches Bewertungsmechanismus passt sich in Echtzeit an Updates der Anwendung an und stellt sicher, dass die Testergebnisse stets eng mit den tatsächlichen Anforderungen übereinstimmen.

Kosteneffizienz und Effizienz: Die Wirtschaftlichkeit der Testung neu definieren

Nicht nur leistungsstark, sondern auch wirtschaftlich beeindruckend ist RealDevWorld. Laut offiziellen Daten kann dieses Werkzeug 15–20 Funktionskomponenten einer Anwendung innerhalb von 8–9 Minuten bewerten, und die Kosten pro Test liegen bei nur 0,26 US-Dollar. Diese Kombination aus Effizienz und geringen Kosten macht es zur idealen Wahl sowohl für kleine als auch für große Entwicklungsgruppen.

AIBase ist der Meinung, dass die Einführung von RealDevWorld den Testschwierigkeiten in der AI-gestützten Entwicklung deutlich reduzieren wird und Entwicklern dabei hilft, qualitativ hochwertige Softwareprodukte schneller zu liefern.

Ausblick auf die Zukunft: Der neue Branchenstandard für AI-Tests

Die Veröffentlichung von RealDevWorld markiert einen großen Fortschritt von MetaGPT im Bereich der AI-gestützten Automatisierungstestung. Im Vergleich zu traditionellen Testframeworks wie Selenium oder Cypress bietet RealDevWorld mit AI-gestützter dynamischer Bewertung und Multi-Agenten-Kooperation eine höhere Flexibilität und Intelligenz. Branchenexperten prognostizieren, dass dieses Werkzeug möglicherweise zum Branchenstandard im Softwaretestbereich 2025 werden könnte, insbesondere in agilen Entwicklungsumgebungen mit schnellem Iterationszyklus.

Das MetaGPT-Team gab bekannt, dass RealDevWorld zukünftig weiter optimiert werden wird, um mehr Programmiersprachen und komplexere Testumgebungen zu unterstützen.

Projektseite: https://realdevworld.metadl.com/

Paper: https://arxiv.org/pdf/2508.14104

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

Die norwegische Robotikfirma 1X stellt den ersten humanoiden Haushaltsroboter Neo vor, der für 20.000 Dollar verkauft wird und eine monatliche Abonnementsgebühr von 499 Dollar hat. Der 1,68 Meter hohe Roboter ist speziell für Aufgaben wie Spülen und Aufräumen konzipiert und verwendet einen Modus mit KI und manueller Fernsteuerung, um komplexe Aufgaben zu erledigen.

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

AWS gab bekannt, in den nächsten sechs Jahren in Südkorea zusätzliche 5 Milliarden Dollar investieren zu wollen, um KI-Datenzentren auszubauen und mit der SK Gruppe ein großes Infrastrukturprojekt in Ulsan zu bauen. Die gesamte Investition in Südkorea wird insgesamt 12,6 Milliarden Dollar betragen und zeigt die strategische Bedeutung des südkoreanischen Marktes für AWS.

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Die schnelle Entwicklung der KI-Technologie führt zu Veränderungen in der Gaming-Branche. Generative KI bietet neue Chancen und Herausforderungen, weshalb Unternehmen wie Microsoft und Amazon ihre Ressourcen auf KI-Anwendungen umstecken. Die Reaktionen von Spielentwicklern sind unterschiedlich, und die Zukunft der Branche ist ungewiss.

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

Ding Xiang Vice-Präsident Li Liang betonte, dass KI leicht für die Erstellung von Gerüchten missbraucht werden kann. Die Plattform setzt aktiv KI-Technologie ein, um Gerüchte zu bekämpfen, und entwickelt ein 'Intelligentes System zur Bekämpfung von Gerüchten' und führt eine schnelle Suche im gesamten Netzwerk als Schwerpunkt der Arbeit in diesem Jahr durch.

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

Google Labs und DeepMind haben gemeinsam den KI-Tool Pomelli vorgestellt, der in den USA, Kanada, Australien und Neuseeland im öffentlichen Test betrieben wird. Dieses Tool richtet sich an kleine und mittlere Unternehmen und generiert durch intelligente Analyse des Website-Inhalts rasch soziale Medien-Marketingkampagnen, die zur Markenidentität passen, um die Marketingbarriere zu senken und professionelle Inhaltserschaffung zu ermöglichen. Die Kernfunktion besteht darin, den Unternehmens-DNA in drei Schritten aufzubauen.

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Zwei US-Senatoren haben das GUARD-Gesetz vorgeschlagen, das KI-Unternehmen verpflichtet, bei der Nutzung von Chatbots die Altersverifikation der Nutzer durchzuführen und Minderjährige unter 18 Jahren den Zugang zu verbieten. Das Gesetz bezieht sich auf die Sorgen von Eltern und Sicherheitsanwälten bezüglich des Einflusses der KI auf Kinder und zielt darauf ab, Minderjährige zu schützen.

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Adobe veröffentlicht das professionelle KI-Bildgenerationsmodell Firefly Image5 und erreicht durch eine Qualitätsschwelle von 'ausreichend' bis 'professionell'. Neue Funktionen umfassen native Ausgabe von 4 Millionen Pixeln, hierarchische Prompt-Editierung, benutzerdefinierte Kunststilmodelle und KI-generierte Audiospuren. Damit wird der KI-Workflow für Bilder, Videos und Audios abgeschlossen und der kreative Arbeitsablauf neu definiert.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

MetaGPT veröffentlicht RealDevWorld: 92% Genauigkeit schlägt Claude und testet AI-Entwicklung neu!

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

GEO Services