La version internationale de Jimeng AI 3.0, développée par ByteDance, vient d'être lancée, marquant ainsi une nouvelle étape dans l'expansion mondiale de ses technologies de génération d'images et de vidéos à partir de texte. Selon AIbase, la nouvelle version se distingue par sa qualité d'image cinématographique, sa résolution 2K, ses textures ultra-réalistes et sa mise en page anglaise précise. Elle excelle particulièrement dans la génération de texte anglais et le contrôle des polices, surpassant même les performances de la version chinoise précédente. L'annonce de son lancement a suscité de vives réactions sur les réseaux sociaux. Les fonctionnalités sont accessibles via le site web et l'application mobile de Jimeng.
Fonctionnalités principales : rendu visuel cinématographique et génération de texte précise
Grâce à des améliorations techniques, la version internationale de Jimeng AI 3.0 offre aux utilisateurs une expérience de création visuelle sans précédent. AIbase a recensé ses principales fonctionnalités :
Qualité d'image cinématographique : les images et vidéos générées bénéficient d'une plage dynamique élevée (HDR) et d'effets d'ombre et de lumière subtils, se rapprochant de la qualité professionnelle du cinéma. Idéal pour les publicités haut de gamme et la prévisualisation de films.
Résolution 2K : prend en charge les images et vidéos en résolution 2048x2048, offrant des détails nets pour répondre aux besoins des médias sociaux, de l'art numérique et des présentations commerciales.
Textures et matières ultra-réalistes : grâce à un modèle de diffusion amélioré, la génération de textures réalistes pour la peau, le métal, les tissus, etc., est possible. Les textures des objets sont nettes et détaillées, comme les reflets sur le verre dans une « scène nocturne cyberpunk ».
Mise en page anglaise précise : optimisation du choix des polices, de l'espacement et de l'alignement. Les textes anglais générés (tels que les titres d'affiches ou les étiquettes de produits) sont propres, professionnels et présentent un taux de précision nettement supérieur à la version chinoise.
Prise en charge de la création multimodale : prend en charge la conversion texte-image (T2I), image-image (I2I) et texte-vidéo (T2V). Les utilisateurs peuvent générer des scènes complexes à partir de mots clés anglais, comme « une rue de Londres de style steampunk ».
AIbase a constaté que lors des tests communautaires, l'invite « A futuristic billboard with bold English text ‘Welcome to 2050’ » a généré une affiche visuellement impressionnante, avec une mise en page anglaise claire et un style uniforme, comparable à celle des logiciels de conception professionnels.
Vidéo officielle
Architecture technique : modèle multimodale et optimisation OCR
La version internationale de Jimeng AI 3.0 est basée sur le framework VeOmni de ByteDance et le modèle d'IA Goku amélioré, combinant la génération multimodale et les techniques de rendu de texte. Selon l'analyse d'AIbase, les technologies clés incluent :
Transformateur de diffusion amélioré : utilise le transformateur de flux rectifié (Rectified Flow Transformer) pour optimiser la génération haute résolution. La génération d'images 2K prend en moyenne 5 à 7 secondes, et la génération de vidéos prend en charge 5 secondes/129 images.
Module OCR et de mise en page : jeu de données OCR pré-entraîné et logique de disposition des polices, améliorant considérablement la compréhension sémantique et la présentation visuelle des textes anglais, réduisant ainsi les erreurs d'orthographe et les problèmes de mise en page.
Optimisation des invites multilingues : grâce au modèle CLIP multilingue (basé sur CLIP-ViT-L-336px), amélioration de l'analyse sémantique des invites anglaises, garantissant une forte adéquation entre le contenu généré et les intentions de l'utilisateur.
Inférerence efficace : grâce au calcul distribué ByteScale et à la quantification FP8, réduction des besoins en mémoire GPU. Matériel recommandé : NVIDIA A100 (40 Go) ou RTX 4090 (24 Go).
AIbase estime que la percée de Jimeng AI 3.0 en matière de mise en page anglaise est due à son optimisation spécifique pour le marché occidental, combinant l'expérience de ByteDance en matière de design visuel acquise grâce à l'écosystème de contenu de TikTok.
Applications : de l'art numérique au marketing commercial
Les capacités visuelles cinématographiques et la mise en page précise de la version internationale de Jimeng AI 3.0 ouvrent un large éventail d'applications. AIbase résume ses principales utilisations :
Art numérique et NFT : les artistes peuvent générer des illustrations haute résolution ou des vidéos dynamiques, telles que des « avatars NFT de style cyberpunk », directement utilisables sur des plateformes comme OpenSea.
Cinéma et publicité : prend en charge la génération rapide d'affiches de films, de courts métrages promotionnels et de vidéos de présentation de produits, tels que des « bandes-annonces de films de science-fiction 2025 » ou des « publicités de montres haut de gamme ».
Contenu des médias sociaux : génération de contenu visuel attrayant pour les plateformes telles que TikTok et Instagram. La mise en page anglaise garantit la cohérence de la marque à l'international.
Conception de marque : les entreprises peuvent générer des designs d'emballages ou des supports promotionnels avec des textes anglais précis, tels que des « étiquettes pour des pots de miel bio » ou des « logos d'entreprises technologiques ».
Éducation et diffusion culturelle : génération de supports pédagogiques visuels ou de contenu de promotion culturelle intégrant du texte anglais, tels que des « illustrations de sites historiques londoniens ».
Des exemples communautaires montrent que les utilisateurs ont généré une « affiche de l'horizon de New York de style surréaliste », avec le titre anglais « New York 2050 » disposé de manière fluide, offrant un rendu visuel comparable à celui d'Adobe Photoshop. AIbase observe que l'intégration potentielle avec CapCut simplifiera davantage le processus de post-production vidéo.
Guide de démarrage : expérience rapide pour les utilisateurs du monde entier
AIbase a appris que la version internationale de Jimeng AI 3.0 est désormais disponible via le site web de Jimeng (jimeng.jianying.com) et les applications iOS/Android. Certaines fonctionnalités nécessitent un abonnement (à partir de 69 yuans/mois). Les utilisateurs peuvent suivre les étapes suivantes pour démarrer rapidement :
Télécharger l'application Jimeng AI (App Store/Google Play) ou visiter jimeng.jianying.com ;
Sélectionner le modèle « Image 3.0 » ou « Vidéo 3.0 », saisir une invite en anglais (par exemple, « A cinematic poster for a sci-fi movie, with bold English title ‘Galaxy Quest’ »);
Ajuster la résolution (2K par défaut) et les paramètres de style, lancer la génération, le processus prend environ 5 à 10 secondes ;
Exporter l'image (PNG/JPEG) ou la vidéo (MP4), possibilité de partager directement sur TikTok ou de sauvegarder sur l'appareil.
La communauté recommande d'utiliser des invites spécifiques et de préciser le style de police (par exemple, « futuristic sans-serif ») pour optimiser la mise en page anglaise. AIbase rappelle que les utilisateurs gratuits ont un nombre limité de points par jour (environ 100 points). Il est conseillé de souscrire un abonnement pour débloquer toutes les fonctionnalités.
Réactions de la communauté et axes d'amélioration
Après le lancement de la version internationale de Jimeng AI 3.0, la communauté a salué ses capacités visuelles cinématographiques et sa mise en page anglaise. Les développeurs affirment qu'elle « propulse la génération d'images par IA dans le domaine de la conception professionnelle », notamment dans la création de contenu marketing international. Cependant, certains utilisateurs ont indiqué que la mise en page chinoise nécessitait encore des améliorations et que la génération haute résolution exigeait des configurations matérielles élevées. La communauté attend également la prise en charge de la résolution 4K et de la génération de vidéos plus longues (par exemple, 10 secondes). ByteDance a répondu que la prochaine version améliorera la cohérence de la mise en page multilingue et optimisera les performances sur les appareils bas de gamme. AIbase prévoit que Jimeng AI 3.0 pourrait être davantage intégré à l'écosystème Doubao, lançant ainsi un « marché de contenu IA » destiné aux créateurs du monde entier.
Adresse d'essai : https://dreamina.capcut.com/