AudioStory de Tencent ARC : Générer des longs enregistrements audio avec un modèle de langage à grande échelle

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Sep 1, 2025

Récemment, l'équipe ARC de Tencent a lancé un modèle appelé AudioStory, visant à générer des récits audio longs en utilisant des modèles de langage à grande échelle (LLMs). Ce modèle résout les avantages des technologies existantes de génération audio à partir de texte dans le traitement des courts extraits audio, tout en répondant aux défis liés à la cohérence temporelle et à la raisonnement compositionnel dans les récits audio longs.

Le cœur d'AudioStory repose sur un cadre d'interprétation et de génération unifié. Ce modèle est capable de traiter diverses tâches telles que la voix off vidéo, la continuation audio et la synthèse de récits audio longs. En combinant des modèles de langage à grande échelle avec un système de génération audio, AudioStory peut générer des récits audio structurés et cohérents dans le temps. Le modèle dispose d'une forte capacité de génération de raisonnement suivant les instructions, pouvant décomposer des requêtes narratives complexes en sous-tâches ordonnées chronologiquement, tout en maintenant la cohérence des transitions de scènes et la constance du ton émotionnel.

Deux caractéristiques notables d'AudioStory sont : premièrement, un mécanisme de pont découplé, qui permet efficacement de diviser la collaboration entre les grands modèles de langage et le générateur audio en deux parties spécialisées ; deuxièmement, une méthode d'entraînement en boucle complète, qui unifie la compréhension des instructions et la génération audio, améliorant ainsi l'efficacité de la coordination entre les composants.

En outre, l'équipe de recherche a créé un ensemble de données de référence appelé AudioStory-10K, couvrant divers domaines tels que les sons d'anime et les narrations sonores naturelles. À travers de nombreuses expériences, AudioStory dépasse les modèles précédents de génération audio à partir de texte, tant dans la génération audio unique que dans la génération de récits audio, démontrant une excellente capacité à suivre les instructions et une qualité audio élevée.

À ce jour, l'équipe a publié le code d'inférence du modèle et a présenté une série de vidéos de démonstration, notamment un exemple de doublage pour l'animation classique "Tom et Jerry", ainsi qu'un cas d'application de génération d'audio long à partir de texte, illustrant ainsi l'application large et la puissance du modèle.

Projet : https://github.com/TencentARC/AudioStory

Points clés :
🎧 **AudioStory est un modèle de génération de récits audio longs développé par l'ARC de Tencent, combinant des modèles de langage à grande échelle et des technologies de génération audio.**
📊 **Le modèle dispose d'une forte capacité à suivre les instructions, pouvant générer des récits audio cohérents, améliorant ainsi l'expérience utilisateur.**
🛠️ **L'équipe a publié le code d'inférence et présenté plusieurs cas d'application, montrant ses avantages dans le doublage vidéo et la génération d'audio long.**

AudioStory équipe ARC de Tencent modèle de langage à grande échelle narration audio longue

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

20 000 dollars pour un double de ménage ? Le robot humanoïde 1X Neo soutenu par OpenAI commence à être vendu en pré-commande, il entrera dans les foyers américains en 2024

La société norvégienne de robots 1X lance son premier robot humanoïde destiné aux ménages, le Neo, au prix de 20 000 dollars, avec un abonnement mensuel de 499 dollars. Ce robot de 1,68 mètre est spécialement conçu pour des tâches ménagères comme laver la vaisselle ou ranger, et utilise un mode de collaboration entre l'IA et une assistance humaine à distance pour accomplir des tâches complexes.

Oct 29, 2025

220

Qingyun lance le premier podcast d'IA interactif en Chine, les utilisateurs peuvent poser des questions à tout moment

Tencent Hunyuan lance le premier podcast IA interactif en Chine, permettant aux utilisateurs de poser des questions en temps réel par voix ou texte, améliorant l'interactivité et l'efficacité.....

Oct 29, 2025

Amazon Web Services prévoit un investissement supplémentaire de 5 milliards de dollars en Corée du Sud pour développer des centres de données axés sur l'intelligence artificielle

Amazon AWS a annoncé qu'il investirait 5 milliards de dollars supplémentaires en Corée du Sud au cours des six prochaines années pour agrandir ses centres de données axés sur l'intelligence artificielle, et collaborera avec le groupe SK pour construire un grand établissement à Ulsan. L'investissement total en Corée atteindra 12,6 milliards de dollars, ce qui souligne l'importance stratégique accordée au marché coréen.

Oct 29, 2025

Le père de DayZ compare sa peur actuelle envers l'IA à la panique précédente face à Google et Wikipedia

La technologie IA connaît un développement rapide, le secteur du jeu vidéo est en pleine transformation. L'IA générative apporte de nouvelles opportunités et défis, Microsoft, Amazon et d'autres entreprises réorientent leurs ressources vers les applications de l'IA. Les développeurs de jeux ont des avis divergents sur ce sujet, et le futur de l'industrie reste incertain.

Oct 29, 2025

100

Journal de l'IA : Douyin lance un système de doublage automatique pour plusieurs personnes ; Adobe Firefly Image 5 se voit fortement amélioré ; Soul présente le modèle vocal SoulX-Podcast

Doubao lance un système IA de livres audio multi-voix automatisé, générant directement des dialogues à partir de textes avec 98% de précision, égalant les productions professionnelles. Une innovation majeure pour la création de contenu audio.....

Oct 29, 2025

100

Qualcomm entre dans le secteur des centres de données ! Présentation des puces AI200/AI250 visant NVIDIA, la valeur actions a bondi de 20 % en une seule journée

Qualcomm a lancé deux puces pour l'inférence AI en cloud, l'AI200 et l'AI250, qui seront commercialisées en 2026 et 2027. Cela marque une transition vers l'infrastructure complète d'IA, passant des puces pour terminaux à l'ensemble de l'infrastructure d'IA. Cette nouvelle a fait bondir les actions de plus de 20 % en une seule journée, soit la plus grande hausse depuis 2019. Contrairement à la stratégie globale de NVIDIA, Qualcomm se concentre sur le marché de l'inférence des grands modèles, mettant en avant son avantage en termes d'efficacité énergétique et de coût.

Oct 29, 2025

140

Magic Leap annonce un nouveau partenariat avec Google pour développer un prototype de lunettes AR de prochaine génération

Le 29 octobre, Magic Leap et Google ont annoncé un nouveau partenariat lors du Sommet des investissements dans l'avenir à Ryad, afin de développer ensemble un prototype de lunettes AR et d'avancer dans le domaine de la réalité augmentée. Ross Rosenburg, dirigeant de Magic Leap, a déclaré que l'entreprise passait du statut de pionnier en réalité augmentée à celui de partenaire d'écosystème, et qu'elle utiliserait son expertise en optique et affichage pour atteindre une nouvelle phase de son vision.

Oct 29, 2025

100

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

L'équipe de Tsinghua et Kuaishou Ke Ling a présenté le modèle SVG, qui remplace la VAE, résolvant ainsi le problème du mélange sémantique, l'efficacité d'entraînement a augmenté de 6200%, la vitesse de génération a augmenté de 3500%, marquant l'abandon progressif de la VAE dans le domaine de la génération d'images.

Oct 29, 2025

130

NVIDIA présente un design révolutionnaire pour centres de données AI, favorisant le calcul à haute performance

Lors de la conférence GTC 2025, NVIDIA a présenté le « projet de conception Omniverse DSX », destiné spécifiquement aux centres de données AI de plusieurs milliards de watts. Ce projet est appelé l'« usine IA ». Cette solution repose sur le cadre Omniverse et prend en charge des configurations allant d'un à dix milliards de watts. Elle vise à former et à exécuter efficacement des modèles AI de grande taille, répondant ainsi à la croissance continue des besoins en calcul IA, représentant une avancée majeure dans les infrastructures d'intelligence artificielle.

Oct 29, 2025

200

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

L'Xinhua rapporte le problème des fausses nouvelles créées par l'intelligence artificielle. Liu Li, vice-président de Douyin, a répondu qu'une IA est un double tranchant : bien qu'elle puisse faciliter la désinformation, Douyin utilise l'intelligence artificielle pour lutter contre la désinformation, en développant des entités intelligentes qui recherchent rapidement les informations autorisées pour démentir les rumeurs.

Oct 29, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

AudioStory de Tencent ARC : Générer des longs enregistrements audio avec un modèle de langage à grande échelle

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

20 000 dollars pour un double de ménage ? Le robot humanoïde 1X Neo soutenu par OpenAI commence à être vendu en pré-commande, il entrera dans les foyers américains en 2024

Qingyun lance le premier podcast d'IA interactif en Chine, les utilisateurs peuvent poser des questions à tout moment

Amazon Web Services prévoit un investissement supplémentaire de 5 milliards de dollars en Corée du Sud pour développer des centres de données axés sur l'intelligence artificielle

Le père de DayZ compare sa peur actuelle envers l'IA à la panique précédente face à Google et Wikipedia

Journal de l'IA : Douyin lance un système de doublage automatique pour plusieurs personnes ; Adobe Firefly Image 5 se voit fortement amélioré ; Soul présente le modèle vocal SoulX-Podcast

Qualcomm entre dans le secteur des centres de données ! Présentation des puces AI200/AI250 visant NVIDIA, la valeur actions a bondi de 20 % en une seule journée

Magic Leap annonce un nouveau partenariat avec Google pour développer un prototype de lunettes AR de prochaine génération

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

NVIDIA présente un design révolutionnaire pour centres de données AI, favorisant le calcul à haute performance

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

Recommandations d'actualités IA connexes

20 000 dollars pour un double de ménage ? Le robot humanoïde 1X Neo soutenu par OpenAI commence à être vendu en pré-commande, il entrera dans les foyers américains en 2024

Qingyun lance le premier podcast d'IA interactif en Chine, les utilisateurs peuvent poser des questions à tout moment

Amazon Web Services prévoit un investissement supplémentaire de 5 milliards de dollars en Corée du Sud pour développer des centres de données axés sur l'intelligence artificielle

Le père de DayZ compare sa peur actuelle envers l'IA à la panique précédente face à Google et Wikipedia

Journal de l'IA : Douyin lance un système de doublage automatique pour plusieurs personnes ; Adobe Firefly Image 5 se voit fortement amélioré ; Soul présente le modèle vocal SoulX-Podcast

Qualcomm entre dans le secteur des centres de données ! Présentation des puces AI200/AI250 visant NVIDIA, la valeur actions a bondi de 20 % en une seule journée

Magic Leap annonce un nouveau partenariat avec Google pour développer un prototype de lunettes AR de prochaine génération

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

NVIDIA présente un design révolutionnaire pour centres de données AI, favorisant le calcul à haute performance

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

GEO Services