En el contexto del rápido desarrollo de la tecnología de traducción basada en inteligencia artificial (IA) a nivel mundial, se ha lanzado oficialmente la primera lista de evaluación de IA aplicada para traducción llamada TransBench. Esta lista ha sido desarrollada conjuntamente por el equipo de Negocios Internacionales de IA de Alibaba, el Laboratorio de Inteligencia Artificial de Shanghái y la Universidad de Idiomas de Beijing, con el objetivo de proporcionar una evaluación estandarizada de la calidad de las traducciones al sector.
A diferencia de las evaluaciones de traducción tradicionales, TransBench introduce nuevos indicadores como la tasa de ilusiones, palabras tabú culturales y normas de cortesía formal, centrándose en problemas clave en las traducciones de modelos grandes. Estos indicadores provienen de retroalimentación de escenarios de uso real, tratando de reflejar la utilidad práctica y la adaptabilidad cultural de las traducciones. Por ejemplo, si un resultado de traducción es fluido pero contiene información "fabricada", se marcará como una "ilusión". De igual manera, las traducciones que no se ajusten a la cultura local o carezcan de la debida cortesía lingüística también afectarán los resultados de la evaluación.
Según los últimos resultados de evaluación de la lista, GPT-4o ocupa la cima de las traducciones basadas en IA, destacándose en la traducción de múltiples idiomas y obteniendo la puntuación más alta en general. Le sigue de cerca DeepL Translate y GPT-4-Turbo. Entre ellos, DeepL Translate es un modelo diseñado específicamente para la traducción automática, cuya versión más reciente fue lanzada el mes pasado, mejorando significativamente la calidad de las traducciones. En la industria del comercio electrónico, el rendimiento de DeepSeek-R1 también es notable, mostrando su competitividad en ciertos campos específicos.
En términos de características culturales, los modelos de la serie Qwen han demostrado ser impresionantes, con Qwen2.5-0.5B-Instruct y Qwen2.5-1.5B-Instruct ocupando los dos primeros lugares, destacando sus ventajas en la traducción intercultural. Esta serie de modelos ha sido desarrollada conjuntamente por varios institutos de investigación, soportando múltiples idiomas, con el fin de mejorar la adaptabilidad cultural de las traducciones.
En lo que respecta a las traducciones del chino, GPT-4o vuelve a liderar la clasificación, seguido de cerca por DeepSeek-V3 y Claude-3.5-Sonnet. En particular, en la industria del comercio electrónico, DeepSeek-V3 ha captado mucha atención por su excelente puntuación.
El método de evaluación y el conjunto de datos de TransBench ya están disponibles de forma abierta, invitando a las principales instituciones de traducción basada en IA a participar, para realizar comparaciones horizontales y evaluar el rendimiento. Este movimiento no solo proporciona una base para la estandarización de la industria, sino que también impulsa el desarrollo de la tecnología de traducción basada en IA.
El equipo de Negocios Internacionales de IA de Alibaba ha declarado que con el continuo progreso de la tecnología de traducción, los requisitos del sector hacia los modelos de traducción se vuelven cada vez más estrictos, y TransBench es precisamente la norma de evaluación que responde a esta demanda. En el futuro, Alibaba Internacional seguirá comprometido con la aplicación de tecnologías de IA para ayudar a más empresas a lograr el desarrollo global.
Con la creciente competencia en el mercado de traducción basada en IA, el lanzamiento de TransBench sin duda proporciona un claro punto de referencia para la industria y ofrece un estándar confiable de referencia a los usuarios al elegir servicios de traducción.