Récemment, l'équipe Seed de ByteDance a officiellement rendu open source le modèle de traduction multilingue **Seed-X**, qui dispose d'une taille légère de 7 milliards de paramètres (7B) et prend en charge la traduction bidirectionnelle dans 28 langues, notamment l'anglais, le chinois, le japonais, le coréen, le français, l'allemand, l'espagnol, le russe, etc., et montre des performances de traduction exceptionnelles.

Selon un rapport d'AIbase, Seed-X s'est distingué dans plusieurs domaines (tels que Internet, technologie, dialogues professionnels, commerce électronique, biopharmaceutique, finance, droit, littérature, divertissement, etc.) avec des performances pouvant rivaliser avec des modèles de pointe comme Gemini-2.5, Claude-3.5 et GPT-4.

QQ20250722-105936.png

 Conception légère, déploiement efficace

Seed-X est conçu sur l'architecture Mistral et se concentre sur l'optimisation des tâches de traduction. Pendant l'entraînement, l'équipe de développement a spécifiquement éliminé les données liées aux STEM, au code et à la raison, afin de se concentrer sur la précision et l'efficacité de la traduction. Cette approche spécifique permet à Seed-X de se distinguer lors des tests de notation humaine, avec une qualité de traduction proche de celle de DeepSeek R1 et de Gemini Pro2.5. Grâce à sa conception légère, Seed-X optimise l'efficacité du déploiement et de la réflexion, ce qui le rend adapté à fonctionner dans des environnements à ressources limitées, offrant ainsi des scénarios d'application flexibles aux développeurs.

Stratégie d'entraînement innovante, focus sur les tâches de traduction

Le succès de Seed-X repose sur l'innovation de l'équipe Seed de ByteDance concernant les stratégies d'entraînement. L'équipe a utilisé un pipeline de traitement des données centré autour des grands modèles linguistiques pour minimiser au maximum l'intervention humaine, générant ainsi et sélectionnant des données d'entraînement de haute qualité pour la traduction. Cette méthode a non seulement amélioré les capacités de traduction du modèle, mais aussi assuré ses performances généralisées dans les scénarios multilingues. AIbase observe que le fait de rendre Seed-X open source reflète encore davantage le soutien de ByteDance à la communauté des développeurs mondiaux. Le modèle utilise une licence MIT souple et met en ligne son code via la plateforme Hugging Face, réduisant ainsi les barrières d'utilisation pour les développeurs.

Accélération du développement de la technologie de traduction par l'IA

La publication de Seed-X marque un autre progrès important de ByteDance dans le domaine de l'open source de l'IA. Auparavant, l'équipe Seed de ByteDance avait déjà rendu open source des modèles multimodaux BAGEL, des modèles de code Seed-Coder et des modèles de génération vocale Seed-TTS, démontrant ainsi une solide expertise technique dans les domaines multimodaux, la génération de code et le traitement vocal. AIbase considère que le lancement de Seed-X n'a pas seulement favorisé l'avancement des technologies de traduction multilingue, mais a également ouvert de nouvelles possibilités pour la traduction automatisée, la création de contenus multilingues et les applications internationales.

Page du projet : https://huggingface.co/collections/ByteDance-Seed/seed-x-6878753f2858bc17afa78543