Fish Audio S1音声クローンモデルが進化し、感情表現や声のリアルさが大幅向上。感情豊かでリズムや抑揚のある音声を生成し、高コストパフォーマンスで業界基準を刷新、市場に新風を吹き込む。....
Fish Audioは改良されたS1音声クローンモデルをリリースし、感情表現力とリアルさにおいて飛躍的な進歩を実現しました。このモデルは、感情、リズム、イントネーションの変化を持つ本物のような音声を生成できます。わずか10秒の音声サンプルで人間の声をクローンでき、元の声のアクセント、イントネーション、リズム、話す習慣を完全に保持し、非常にリアルな効果を発揮します。
NVIDIAがオープンソースの生成AIモデル「Audio2Face」を公開。音声から仮想キャラクターの表情をリアルタイムで制御し、ゲーム・3Dアプリ開発を支援。ゲーム、映画、カスタマーサービスなど幅広く活用可能。....
Stability AIがStable Audio2.5を発表。プロ向け音響制作のための高品質でカスタマイズ可能なオーディオ生成モデル。複数セクションの楽曲制作と感情プロンプトへの高精度対応が特徴。....
Tecnología revolucionaria de sincronización de labios basada en la percepción global del audio.
Un generador de música basado en IA que convierte texto en música. Soporta doblaje de IA, eliminación de voz original y separación de pistas de audio.
ソース分離と合成を行うための革新的な手法としてのオーディオ拡散モデル。
Audioxは専門的なAIオーディオ生成ツールです。
XiaomiMiMo
MiMo Audioは小米が開発した音声言語モデルで、大規模な事前学習により強力な少サンプル学習能力を発揮します。このモデルは、従来のモデルが特定のタスクの微調整に依存する限界を突破し、音声インテリジェント、音声理解などのタスクで優れた性能を発揮し、オープンソースモデルの中で先進的なレベルに達しています。
MiMo Audioは大規模事前学習に基づく音声言語モデルで、音声インテリジェンスと音声理解のベンチマークテストでオープンソースモデルのSOTA性能を達成しました。このモデルは強力な少サンプル学習能力を示し、学習データに含まれないタスクに汎化でき、音声変換、スタイル移行、音声編集などのさまざまな音声タスクをサポートします。
nvidia
オーディオフラミンゴ3は完全にオープンソースの先進的な大型音声言語モデルで、音声、音、音楽の推論と理解能力を向上させることができます。
bosonai
Higgs Audio V2は強力なオーディオ基礎モデルで、1000万時間を超えるオーディオデータと多様なテキストデータで事前学習され、表现力豊かなオーディオを生成できます。
onnx-community
これはAST(Audio Spectrogram Transformer)モデルのONNXバージョンで、音声分類タスク用に設計され、AudioSetデータセットで微調整されています。
aicinema69
このモデルはTransformersライブラリをベースとしたモデルで、具体的な用途や機能はさらなる情報が必要です。
HKUSTAudio
AudioXは任意のコンテンツから音声や音楽を生成できる統一拡散トランスフォーマーモデルです。高品質な汎用音声と音楽作品を生成し、柔軟な自然言語制御を提供し、複数のモダリティ入力をシームレスに処理できます。
saurabhati
Transformerベースの音声分類器を初めて超えた状態空間モデルで、AudioSet音声分類タスクにおいて最先端の性能を実現し、同時にモデルサイズを大幅に縮小しました。
qualcomm
YamNetはAudioSetデータセットを基に訓練された音声イベント分類モデルで、Mobilenet_v1の深度分離可能畳み込みアーキテクチャを採用し、モバイルデバイスへのデプロイに最適化されており、様々な音声イベントを正確に識別し分類することができます。
jiviai
AudioXはJivi AIが開発した多言語自動音声認識モデルで、ヒンディー語、グジャラート語、マラーティー語などインドの言語に最適化されています。
facebook
音声、音楽、サウンドの統合的な自動品質評価モデル
wkCircle
このモデルはAudio Spectrogram Transformer (AST)アーキテクチャに基づくオーディオ分類モデルで、Audiosetデータセットで事前学習された後、GTZAN音楽ジャンル分類データセットでファインチューニングされています。
AudioXはJivi AIが開発した多言語自動音声認識モデルで、特にインド南部の言語に最適化されており、タミル語、テルグ語、カンナダ語、マラヤーラム語をサポートしています。
Nekochu
Stable Audio Toolsは、テキスト記述に基づいて高品質なオーディオコンテンツを生成できるテキストからオーディオへの変換モデルです。
abnerh
このモデルはAudio Spectrogram Transformer (AST)をGTZAN音楽分類データセットでファインチューニングしたバージョンで、オーディオ分類タスクに使用され、精度は88%です。
wsntxxn
AudioSetで事前学習され、AudioSet-strongでファインチューニングされたCRNN音声イベント検出モデル
Hatman
このモデルはfacebook/wav2vec2-large-xlsr-53をファインチューニングした音声感情検出モデルで、7種類の感情状態を識別可能
stabilityai
Stable Audio Open 1.0はテキストからオーディオを生成するモデルで、テキストプロンプトに基づいて最大47秒の44.1kHzステレオオーディオを生成できます。
washeed
これはTransformersベースの自動音声認識(ASR)モデルで、音声ファイルをテキストに転写するために使用されます。
AqeelShafy7
openai/whisper-smallをファインチューニングした音声からテキストへの変換モデルで、音声翻訳とテキスト生成タスクをサポートします。
OpenAI APIをベースにした音声文字起こしMCPサービス
オーディオ入力/出力機能を提供するMCPサーバーで、ClaudeなどのAIアシスタントがコンピューターのオーディオシステムと対話できるようにし、録音、オーディオファイル再生などの機能を含みます。
mcp - audioはAIO - 2030標準に準拠したMCPプラグインで、音声を文字に変換する機能を提供し、複数の音声フォーマットとAPI呼び出し方法をサポートします。
OpenAI APIに基づく音声文字起こしMCPサーバーで、音声トランスクリプション機能を提供し、複数の設定オプションをサポートします。
AIアシスタントにオーディオ入出力機能を提供するMCPサーバー
Claudeでコンピューターのオーディオ再生を制御するMCPサービス
Fish Audio MCPサーバーは、テキスト読み上げサービスを提供するミドルウェアで、Model Context Protocolを通じてClaudeなどのLLMとシームレスに統合され、多言語、多音色、リアルタイムストリーミングオーディオ生成をサポートします。