Inmitten des raschen Fortschritts der AI-Übersetzungs Technologien weltweit wurde das erste anwendungsorientierte AI-Übersetzungs-Ranking TransBench offiziell veröffentlicht. Dieses Ranking wurde von der internationalen AI-Business-Abteilung von Alibaba, dem Shanghai Artificial Intelligence Laboratory und der Beijing Language University gemeinsam entwickelt und soll die Übersetzungsqualität in der Branche standardisieren.

Im Gegensatz zu traditionellen Übersetzungsprüfungen führt TransBench neue Indikatoren wie Halluzinationsrate, kulturelle Tabubegriffe und Anstandsformen ein, um Schlüsselprobleme im Kontext von großen Modellen zu adressieren. Diese Indikatoren basieren auf Rückmeldungen aus realen Anwendungsszenarien und zielen darauf ab, die Praktikabilität und kulturelle Anpassungsfähigkeit der Übersetzungen zu messen. Zum Beispiel wird ein „Halluzination“ markiert, wenn der Übersetzung „falsche“ Informationen hinzugefügt wurden; gleiches gilt für Übersetzungen, die nicht der lokalen Kultur entsprechen oder nicht die notwendige Höflichkeit enthalten.

QQ20250523-110036.png

Nach den neuesten Bewertungsergebnissen des Rankings befindet sich GPT-4o weiterhin auf dem ersten Platz unter den AI-Übersetzern und zeigt herausragende Leistungen bei der Mehrsprachenumsetzung mit der höchsten Gesamtnote. Dahinter steht DeepL Translate und GPT-4-Turbo. DeepL Translate ist speziell für maschinelle Übersetzungen entwickelt worden, und die letzte Version wurde im vergangenen Monat veröffentlicht, wodurch die Übersetzungsqualität erheblich verbessert wurde. Im E-Commerce-Bereich zeigt sich DeepSeek-R1 ebenfalls sehr erfolgreich, was seine Wettbewerbsfähigkeit in bestimmten Segmenten unterstreicht.

Hinsichtlich kultureller Anpassungsalternativen schneiden Modelle der Serie Qwen ausgezeichnet ab, wobei Qwen2.5-0.5B-Instruct und Qwen2.5-1.5B-Instruct die Spitzenplätze einnehmen. Diese Reihe von Modellen wurde von mehreren Forschungseinrichtungen gemeinsam entwickelt und unterstützt viele Sprachen, um die kulturelle Anpassungsfähigkeit der Übersetzungen zu verbessern.

In Bezug auf chinesische Übersetzungen steht GPT-4o erneut an erster Stelle, gefolgt von DeepSeek-V3 und Claude-3.5-Sonnet. Insbesondere im E-Commerce-Bereich hat DeepSeek-V3 durch seine herausragenden Ergebnisse große Aufmerksamkeit erregt.

Die Bewertungsmethoden und Datensätze von TransBench sind jetzt öffentlich verfügbar und laden verschiedene AI-Übersetzungsunternehmen ein, um sich horizontal zu vergleichen und die Leistungsfähigkeit zu bewerten. Dies bietet nicht nur eine Basis für branchenweite Normen, sondern fördert auch die weitere Entwicklung der AI-Übersetzungs Technologie.

Die internationale AI-Geschäftsabteilung von Alibaba hat betont, dass mit dem ständigen Fortschritt der Übersetzungs Technologie die Anforderungen an Übersetzungsmodelle immer strenger werden. TransBench wurde als Bewertungsstandard entwickelt, um dieser Nachfrage zu entsprechen. In Zukunft wird Alibaba International weiterhin fortschrittliche AI-Technologien nutzen, um mehr Unternehmen dabei zu helfen, ihre globale Entwicklung zu fördern.

Während der Konkurrenz im Bereich der AI-Übersetzungen immer intensiver wird, bietet die Veröffentlichung von TransBench der Branche unmissverständlich einen klaren Leitfaden und bietet Nutzern ein verlässliches Referenzmaßstab beim Auswahl einer Überservice.