腾讯ARCがオープンソースで音声モデル AudioStory をリリース：大規模言語モデルで長時間の音声を生成

AIbase基地

公開日AIニュース · 1 分で読めます · Sep 1, 2025

最近、テンセントのARCチームは、長編の物語音声を生成するための大規模言語モデル（LLMs）を活用した「AudioStory」というモデルをリリースしました。このモデルは、短い音声処理において優れた現行のテキストから音声への生成技術と、長編の物語音声における時間的連続性と組み合わせ推論の課題を解決しています。

AudioStoryの核心は、統一された理解と生成フレームワークにあります。このモデルは、動画のナレーション、音声の継続、長編の物語音声合成などのさまざまなタスクを処理できます。大規模言語モデルと音声生成システムを組み合わせることで、構造化され、時間的に一貫した音声の物語を作成できます。このモデルは強力な指示追従推論生成能力を持ち、複雑な物語の質問を時間順に並べたサブタスクに分解でき、場面の変換の連続性と感情のトーンの一貫性を保つことができます。

AudioStoryの二つの顕著な特徴は次の通りです：第一に、大規模言語モデルと音声生成器の協力を二つの専門的な部分に分離する「脱結合されたブリッジメカニズム」；第二に、一貫した指示理解と音声生成を統一する「エンドツーエンドのトレーニング方式」により、コンポーネント間の協調効果を向上させます。

また、研究チームは、「AudioStory-10K」というベンチマークデータセットを構築し、アニメーションの音景や自然音の物語など多様な領域をカバーしています。多数の実験を通じて、AudioStoryは単一の音声生成および物語音声生成において、従来のテキストから音声への生成モデルよりも優れた性能を示し、優れた指示追従能力和音声品質を備えています。

現在、チームはモデルの推論コードを公開しており、いくつかのデモビデオも紹介しています。これらには、有名なアニメ「猫と鼠」のナレーションの例や、テキストに基づいて長時間の音声を生成する応用ケースが含まれており、このモデルの広範な適用可能性と強力な機能を示しています。

プロジェクト：https://github.com/TencentARC/AudioStory

ポイント:
🎧 **AudioStoryは、テンセントのARCによって開発された長編の物語音声生成モデルであり、大規模言語モデルと音声生成技術を組み合わせています。**
📊 **モデルは強力な指示追従能力を持ち、連続的な音声の物語を生成し、ユーザー体験を向上させます。**
🛠️ **チームは推論コードを公開し、複数の応用ケースを紹介しており、動画のナレーションや長時間の音声生成での利点を示しています。**

AudioStory 騰訊ARCチーム大規模言語モデル長編の物語音声

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

グーグル Gemini 3.5のリーク：コード名 Snow Bunny。一度のプロンプトで3000行のコードを生成

グーグルの次世代AIモデルGemini 3.5がリークされた。コード名Snow Bunnyのテスト版は強力なエンジニアリング能力を示し、一度に完全なアプリケーションを構築でき、一度のプロンプトで最大3000行の実行可能なコードを生成できる。グーグルはまた、特定の分野に特化したモデルも準備しており、例えば特定の分野に特化したFierce Falconなど、プログラミング分野における大きな進歩を示している。

Jan 29, 2026

AIチップの需要が供給を上回る：サムスン、2025年Q4の営業利益が200%増加し、歴史的新高を記録

世界的なAI競争による半導体需要の急増により、サムスン電子は2025年に堅調な業績を達成。営業利益は前年比33.2％増の43.6兆ウォン、売上高は10.9％増の333.6兆ウォン、純利益は31.2％増の45.2兆ウォンに。特に第4四半期は営業利益が大幅に増加し、過去最高を記録。....

Jan 29, 2026

Kimi K2.5 Agentが効率的なオフィス作業をサポート：Excel、Word、PDFの全面的なアップグレード

月の暗面がKimi K2.5モデルをリリースしました。そのKimi Agentのオフィス機能は大幅に向上し、「オフィス精通」時代へと入りました。このAIは現在、Excel、Word、PDF、PPTファイルを深く処理でき、専門レベルの成果を直接生成できます。主なアップグレードは効率の指数的な飛躍で、もともと何時間もの作業や数日かかる機械的作業が数分で終わるようになりました。たとえば、数百ページのPDFから重要な情報を抽出するなどです。

Jan 29, 2026

ソーシャルメディアの新展開：OpenAIが人間限定のソーシャルネットワークを開発予定

OpenAIが秘密裏に開発中の新SNSは、生体認証でボットを排除し、純粋な人間同士の交流を実現。ChatGPTとSoraの普及も視野に入れた戦略で、マスク氏のXプラットフォームへの対抗と見られている。....

Jan 29, 2026

京东クラウドがMoltbotクラウドサービスをリリース: オープンソースのデプロイメントプロセスを簡略化し、個人用クラウドアシスタントの普及を支援

京东クラウドは1月29日に、軽量クラウドホストにMoltbotクラウドサービスをリリースしました。このサービスにより、ローカルでのデプロイからクラウドでのワンクリック起動までが可能となり、ユーザーは3ステップで構成を完了できます。今注目のオープンソースエージェントプロジェクトであるMoltbotは、独自のインタラクティブロジックによりアプリケーションの壁を突破し、ユーザーが特定のウェブサイトやアプリを開かずに直接対話できるようにしています。

Jan 29, 2026

アリババ・ピントウゲー自社開発のAIチップ・ジンムー810Eが発表

アリババ・ピントウゲーは高性能AIチップのジンムー810Eを発表しました。その性能はNVIDIA A800と主流の国内GPUを上回り、H20と同等です。このチップは自社開発のアーキテクチャと相互接続技術を使用しており、アリババのAI戦略「通雲哥（トンユンゲ）」が正式に完成したことを示しています。

Jan 29, 2026

クンラン・ティアンゴンが音楽大規模モデル「Mureka V8」を発表：生成から公開に至る飛躍

クンラン・ティアンゴンが音楽大規模モデル「Mureka V8」を発表しました。このモデルは、MusiCoT技術体系のアップグレードに基づいています。このモデルは、音楽構造やセクションの論理、表現意図を深くモデリングし、人間の創作ロジックに近いメロディーの展開と感情の伝達を実現します。これにより、音楽性、編曲の完成度、ボーカル表現、音質の質が顕著に向上しました。

Jan 29, 2026

米国 ICE が Palantir AI ツールを活用：自動的に通報情報を選別　法執行の効率アップ

米国移民・関税執行局は、Palantirの生成AIシステムを導入し、移民関連の通報情報の自動分類と要約に活用。AI技術が法執行の最前線に深く関与する新たな段階へ。....

Jan 29, 2026

ServiceNowとAnthropic：両大手企業の提携により、多モデル企業向けAIの新時代が始まる

ServiceNowはAnthropicとの長期間にわたる戦略的協力を開始し、ClaudeシリーズのモデルをAIワークフロープロダクトの最優先モデルとして選定し、エージェントビルダーのデフォルトオプションとしました。前回に比べて、ServiceNowはOpenAIとも提携しており、オープンで多モデルな企業向けAIエコシステムの構築を目指しています。

Jan 29, 2026

アリマーボ世界モデルLingBot-Worldのオープンソース、高精度で動的、ミリ秒レベルのリアルタイムインタラクション

アリマーボテクノロジーがオープンソースした世界モデルLingBot-Worldは、ビデオ品質や動的性能などの主要指標においてGoogle Genie3と同等であり、エージェント型知能や自律走行などの分野に、高精度でリアルタイムで操作可能なデジタルシミュレーション環境を提供します。

Jan 29, 2026

AIニュース

AIニュース日報

AIツールを探す

AI製品ランキング

AIプロダクト登録

AIツールディレクトリ

AIモデルファインダー

LLMランキング

LLMプロバイダー

LLM比較選定

LLMコスト計算機

LLMアリーナ

MCPサーバー

MCPクライアント

MCPケースチュートリアル

MCPランキング

MCPサービス提出

MCP実験場

MCPインスペクター

GEO ブランドビジビリティ

AIブランドモニタリング

GEOランキング照会ツール

GEOプロモーションリンク検出

GEOランキング最適化システム

GEO順位最適化サービス

AIモデル互換性チェッカー

モデル展開サーバー構成計算機

腾讯ARCがオープンソースで音声モデル AudioStory をリリース：大規模言語モデルで長時間の音声を生成

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

グーグル Gemini 3.5のリーク：コード名 Snow Bunny。一度のプロンプトで3000行のコードを生成

AIチップの需要が供給を上回る：サムスン、2025年Q4の営業利益が200%増加し、歴史的新高を記録

Kimi K2.5 Agentが効率的なオフィス作業をサポート：Excel、Word、PDFの全面的なアップグレード

ソーシャルメディアの新展開：OpenAIが人間限定のソーシャルネットワークを開発予定

京东クラウドがMoltbotクラウドサービスをリリース: オープンソースのデプロイメントプロセスを簡略化し、個人用クラウドアシスタントの普及を支援

​アリババ・ピントウゲー自社開発のAIチップ・ジンムー810Eが発表

クンラン・ティアンゴンが音楽大規模モデル「Mureka V8」を発表：生成から公開に至る飛躍

米国 ICE が Palantir AI ツールを活用：自動的に通報情報を選別 法執行の効率アップ

ServiceNowとAnthropic：両大手企業の提携により、多モデル企業向けAIの新時代が始まる

アリマーボ世界モデルLingBot-Worldのオープンソース、高精度で動的、ミリ秒レベルのリアルタイムインタラクション

関連AIニュースの推奨

グーグル Gemini 3.5のリーク：コード名 Snow Bunny。一度のプロンプトで3000行のコードを生成

AIチップの需要が供給を上回る：サムスン、2025年Q4の営業利益が200%増加し、歴史的新高を記録

Kimi K2.5 Agentが効率的なオフィス作業をサポート：Excel、Word、PDFの全面的なアップグレード

ソーシャルメディアの新展開：OpenAIが人間限定のソーシャルネットワークを開発予定

京东クラウドがMoltbotクラウドサービスをリリース: オープンソースのデプロイメントプロセスを簡略化し、個人用クラウドアシスタントの普及を支援

​アリババ・ピントウゲー自社開発のAIチップ・ジンムー810Eが発表

クンラン・ティアンゴンが音楽大規模モデル「Mureka V8」を発表：生成から公開に至る飛躍

米国 ICE が Palantir AI ツールを活用：自動的に通報情報を選別 法執行の効率アップ

ServiceNowとAnthropic：両大手企業の提携により、多モデル企業向けAIの新時代が始まる

アリマーボ世界モデルLingBot-Worldのオープンソース、高精度で動的、ミリ秒レベルのリアルタイムインタラクション

アリババ・ピントウゲー自社開発のAIチップ・ジンムー810Eが発表

米国 ICE が Palantir AI ツールを活用：自動的に通報情報を選別　法執行の効率アップ

アリババ・ピントウゲー自社開発のAIチップ・ジンムー810Eが発表

米国 ICE が Palantir AI ツールを活用：自動的に通報情報を選別　法執行の効率アップ