Le groupe Seed de ByteDance a officiellement lancé sa dernière innovation : le modèle de traduction simultanée en temps réel Seed LiveInterpret 2.0. Ce modèle marque un grand progrès dans la technologie de traduction simultanée par machine, avec une précision de traduction proche de celle d'un interprète humain, un délai extrêmement faible de seulement 3 secondes, et une fonction de recréation sonore en temps réel qui permet de produire la voix traduite avec le timbre de la voix originale, améliorant ainsi considérablement la nature et la fluidité de la communication multilingue.
L'interprétation simultanée est considérée comme l'apanage des compétences les plus élevées du domaine de la traduction. Elle exige que l'interprète effectue rapidement la conversion linguistique tout en écoutant et parlant en même temps, ce qui représente un défi important pour les chercheurs en traduction. L'apparition de Seed LiveInterpret 2.0 n'a pas seulement atteint un niveau exceptionnel (SOTA) en matière de qualité de traduction entre le chinois et l'anglais, mais a également réalisé un délai très faible, offrant ainsi une nouvelle référence technique pour le domaine de l'interprétation simultanée.
Seed LiveInterpret 2.0 repose sur un cadre complet de génération et de compréhension de la parole en temps réel, supporte la traduction bidirectionnelle chinois-anglais, et peut traiter en temps réel plusieurs entrées vocales. Il peut écouter et parler en même temps, à un délai extrêmement faible, tout en recevant les entrées vocales de la langue source et en produisant directement la traduction en langue cible. De plus, le modèle supporte la recréation de voix sans échantillon préalable, synthétisant une voix « originale » en temps réel grâce à la conversation, rendant ainsi les échanges plus fluides et naturels.
Dans les tests, Seed LiveInterpret 2.0 a démontré ses grandes capacités. Face à une longue expression en chinois de 40 secondes, le modèle peut fournir une traduction en anglais avec le même ton de voix à un délai faible. En outre, il peut rapidement apprendre le ton de voix, qu'il s'agisse de Zhu Bajie de « Voyage vers l'Ouest » ou de Lin Daiyu de « Rêve dans le pavillon rouge », même si le modèle n'avait jamais entendu ces personnages auparavant, il peut encore les interpréter en direct via une interaction en temps réel.
Comparé aux systèmes traditionnels d'interprétation simultanée par machine, Seed LiveInterpret 2.0 présente des avantages significatifs dans plusieurs aspects. Tout d'abord, il offre une précision de traduction proche de celle d'un interprète humain, assurant ainsi la précision de la traduction. Dans des scénarios complexes tels que des réunions avec plusieurs participants, la précision de la traduction en anglais et en chinois dépasse 70 %, tandis que pour les discours individuels, elle dépasse 80 %, approchant ainsi le niveau professionnel d'un interprète humain. Ensuite, sa capacité à « écouter et parler en même temps » à un délai extrêmement faible utilise un cadre complet de compréhension et de génération de la parole, permettant un délai de traduction pouvant descendre à 2-3 secondes, soit une réduction supérieure à 60 % par rapport aux systèmes traditionnels, réalisant ainsi véritablement la traduction « en temps réel ». De plus, la fonction de recréation de voix sans échantillon permet au modèle de produire la traduction en langues étrangères avec le timbre de la voix de l'interlocuteur, augmentant ainsi l'immersion et l'efficacité de la communication. Enfin, le modèle peut intelligemment équilibrer la qualité de la traduction, le délai et le rythme de la sortie vocale, ajustant le rythme selon la clarté, la fluidité et la complexité de la parole, et adaptant le tout aux spécificités de différentes langues, garantissant ainsi une fluidité naturelle même face à des informations très longues.
Dans les évaluations menées par des humains, Seed LiveInterpret 2.0 s'est particulièrement distingué. Les évaluations ont été basées sur le jeu de données RealSI, un ensemble de tests public comprenant 10 domaines dans chaque direction chinois-anglais. L'équipe d'évaluation a utilisé la proportion d'informations valides transmises (Valid Information Proportion) comme indicateur, testant plusieurs systèmes d'interprétation simultanée avancés du secteur, y compris Seed LiveInterpret 2.0. Les résultats montrent que, dans les tâches d'interprétation de la parole au texte, la note moyenne attribuée à la qualité de traduction de Seed LiveInterpret 2.0 en chinois-anglais a atteint 74,8 (sur 100, évaluant la précision des traductions), ce qui représente une augmentation de 58 % par rapport au système de référence classé deuxième (47,3 points). Dans les tâches d'interprétation de la parole à la parole chinois-anglaise, seuls trois systèmes de traduction soutenaient cette capacité. La note moyenne attribuée à la qualité de traduction de Seed LiveInterpret 2.0 en chinois-anglais a atteint 66,3 points (sur 100, évaluant non seulement la précision des traductions, mais aussi le délai de sortie vocale, la vitesse, l'articulation et la fluidité), dépassant largement les autres systèmes de référence et approchant ainsi le niveau d'un interprète humain professionnel. En outre, la plupart des systèmes de référence ne soutiennent pas la fonction de recréation de voix.
Au niveau des délais, dans les scénarios de la parole au texte, le délai moyen pour afficher le premier mot est de 2,21 secondes, tandis que dans les scénarios de la parole à la parole, le délai d'affichage est de 2,53 secondes, permettant un équilibre parfait entre la qualité de la traduction et le délai.
Rapport technique :
https://arxiv.org/pdf/2507.17527
Page du projet :
https://seed.bytedance.com/seed_liveinterpret