Moonshot AIがKimi-Audioを発表：オープンソースの音声基礎モデルが新たな基準を確立

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 27, 2025

この度、Moonshot AIは、音声理解、生成、インタラクション分野の技術進歩を促進することを目的とした、全く新しいオープンソースの音声基礎モデルであるKimi-Audioを発表しました。この発表は世界中のAIコミュニティで大きな注目を集め、マルチモーダルAI発展の重要なマイルストーンとして認識されています。

以下は、Kimi-Audioの主要な特徴、性能、および業界への影響に関する包括的なレポートです。

画期的な特徴：万能音声処理能力

Kimi-Audio-7B-InstructはQwen2.5-7BアーキテクチャをベースにWhisper技術を組み合わせ、強力な多機能性を発揮します。このモデルは、音声認識（ASR）、音声質疑応答（AQA）、音声字幕（AAC）、音声感情認識（SER）、サウンドイベント/シーン分類（SEC/ASC）、テキスト読み上げ（TTS）、音声変換（VC）、エンドツーエンド音声対話など、様々な音声関連タスクに対応しています。

Kimi-Audioは革新的な混合音声入力メカニズムを採用し、12.5Hzのサンプリングレートで音声データを処理することで、複雑な音声信号に対するモデルの理解能力を大幅に向上させています。

データとトレーニング：13億時間の音声データが堅実な基盤を築く

Kimi-Audioの優れた性能は、膨大なトレーニングデータセットによるものです。公式発表によると、このモデルは音声、音楽、環境音など様々なタイプの1300万時間以上の多様な音声データでトレーニングされています。Moonshot AIは、Kimi-Audioのトレーニングコード、モデルウェイト、および評価ツールキットもオープンソース化しています。

性能：業界標準を超える

Kimi-Audioは複数のベンチマークテストでトップクラスの性能を示し、既存のオープンソースモデルや一部のクローズドソースモデルを凌駕しています。音声認識、感情分析、音声質疑応答などのタスクにおけるパフォーマンスは特に優れており、強力な汎化能力を示しています。Kimi-Audioのオープンソース評価ツールキットは、業界に標準化されたテストプラットフォームを提供します。

業界への影響：マルチモーダルAIの民主化を加速

オープンソースモデルであるKimi-Audioは、音声AI技術の利用障壁を低くし、開発者、企業、研究者が低コストで革新的なアプリケーションを構築できるようにします。Kimi-Audioの発表は、中国のAI産業が急速に発展している時期に合致しており、そのオープンソース戦略は世界的なAI技術の民主化をさらに推進し、非西洋諸国の開発者により多くの選択肢を提供します。

Kimi-Audioの発表は、音声処理分野に新たな活力を吹き込むだけでなく、世界的なAIエコシステムにオープンで協調的な模範を示しています。

国内初のマルチモーダルAIプログラマーが正式に職場へ　文心快码CodingインテリジェントエージェントZulu正式リリース

百度Create AI開発者会議が北京で開催されました。この注目を集めるテクノロジーイベントで、百度は文心快码3.5バージョンと、国内初のマルチモーダルAIプログラマーである文心快码Comate Zuluインテリジェントエージェントを正式にリリースし、AIプログラミングツールの新たな発展段階への到来を示しました。

アップルとソルボンヌ大学、共同研究：早期融合とスパースアーキテクチャがマルチモーダルAIの発展を促進

マルチモーダル人工知能（AI）の分野において、アップルのエンジニアとフランスのソルボンヌ大学の研究チームが共同で重要な研究を進めています。最近、テクノロジーメディアmarktechpostが関連するブログ記事を発表し、マルチモーダルAIにおける早期融合モデルと後期融合モデルの応用と将来性について論じています。研究によると、ゼロからトレーニングされた早期融合モデルは、計算効率と拡張性においてより優れています。マルチモーダルAIの目標は、画像やテキストなど、複数のデータタイプを同時に処理することですが、これらの異なるソースからの情報を統合することは、依然として課題となっています。

報道によると、OpenAIは来週、GPT-4.1シリーズ（Mini版とNano版を含む）を発売

人工知能分野のリーダーであるOpenAIが、来週、新たな技術トレンドを巻き起こそうとしています！テクノロジーメディアThe Vergeの報道によると、OpenAIはGPT-4.1シリーズ、o3シリーズ、その他複数のAIモデルを含む大規模なアップデートを予定しています。この集中リリースは、OpenAIの革新を加速させる野心を示すだけでなく、業界にさらに強力なAIツールをもたらします。GPT-4.1シリーズ：マルチモーダル能力の全面的なアップグレード　GPT-4.0の後継として、GPT-4.1シリーズは

商湯科技日日新V6震撼発表：マルチモーダルAIがさらに進化、APIは明日公開！

先日、商湯科技の創業者である徐立氏が、最新世代の人工知能大規模モデル「日日新V6」を発表しました。このニュースは瞬く間にテクノロジー業界で大きな話題となりました。AIbaseの情報によると、日日新V6はマルチモーダル能力において大きな飛躍を遂げ、商湯科技のAI分野におけるリーダーシップをさらに強固なものにしました。さらに素晴らしいことに、このモデルのAPIは明日正式に公開され、開発者により強力な技術サポートを提供し、AIアプリケーションの迅速な導入を支援します。マルチモーダル能力が全面的にアップグレードされた日日新V6は、商湯科技のSens...

マスクのxAI、動画生成スタートアップHotshot AIを買収　AI動画分野の競争激化

シリコンバレーのテクノロジー大手による版図拡大に新たな章が加わりました！イーロン・マスク率いるxAI社は本日、動画生成AI技術に特化したスタートアップ企業Hotshot社の買収を発表しました。この戦略的買収は、xAI社のマルチモーダルAI技術分野に新たな活力を注入することでしょう。Hotshot社のCEOであるAakash Sastry氏はXプラットフォーム上でこのニュースを正式に発表しましたが、具体的な取引金額については明らかにしていません。Redditの共同設立者Alexis Ohanian氏やSV Angelなどから資金調達を受けていた企業です。