Meta元社員が設立したSandbar社が音声対応スマートリング「Stream」を発表。音声でメモ作成、音楽操作、AI連携が可能な“音声マウス”として日常タスクを効率化。CEOはミナ・ファーミ、CTOはキラク・ホン。....
メイドゥーは自社開発のLongCatビッグモデル公式アプリを正式リリースしました。このアプリはAndroidおよびiOSシステムからダウンロード可能です。インターネット検索、音声通話機能をサポートし、今後は動画通話も追加予定です。テキスト処理やマルチモーダル理解技術を通じて、ユーザーが効率的に情報を取得するのを支援し、メイドゥーが人工知能分野において重要な進展を示しています。
豆包が全自動AIマルチボイスオーディオドラマシステムを発表。小説テキストから直接、98%の精度でキャラクターを認識し、プロ級の音声コンテンツを生成。AI音声制作に革新をもたらす。....
ドウバオ音声チームが、AI多人オーディオドラマの「完全自動製造ソリューション」をリリースしました。小説のテキストから完成品のラジオドラマまで、エンド・トゥ・エンドで手動作業なしの制作を実現します。声優の録音や編集、人間の介入は不要で、コストは大幅に低下し、効率は向上し、結果はプロフェッショナルなレベルに近づいています。キャラクター認識精度は98%に達しています。
Qwen2.5-Omniは、アリババクラウドの通義千問チームが開発したエンドツーエンドのマルチモーダルモデルであり、テキスト、音声、画像、ビデオ入力をサポートしています。
AIスマート拡声器 - ChatGPTの回答を自動朗読、録音し、MP3形式でダウンロード
google
$9
入力トークン/百万
$72
出力トークン/百万
1M
コンテキスト長
$0.72
$2.88
mradermacher
SoulX-Podcast-1.7B は、Soul-AILab/SoulX-Podcast-1.7B に基づく静的量子化バージョンで、テキストを音声に変換するタスクに特化しています。このモデルは英語と中国語をサポートし、さまざまなハードウェアとパフォーマンス要件に対応するための複数の量子化バージョンを提供します。
TuKoResearch
AuriStream-1Bは、生物に着想を得たGPTスタイルの自己回帰型Transformerモデルで、長い音声文脈で蝸牛マークを予測するために特別に設計されています。このモデルは約20秒(4096個のマーク)の長い文脈ウィンドウを使用し、LibriLightデータセット(約60000時間)で約500000ステップの訓練を行い、豊富な時間的に整列した表現を学習し、音声の続きを生成することができます。
mahwizzzz
オルフェウスウルドゥー語音声合成(TTS)モデルは、ウルドゥー語用にカスタマイズされた音声合成ツールで、オルフェウス3Bモデルを微調整して作成され、テキストを自然で流れるウルドゥー語音声に変換できます。
hisanusman
マイクロソフトSpeechT5アーキテクチャを基にファインチューニングしたウルドゥー語テキスト音声変換モデルで、ローマ字入力をサポート
facebook
MAGNeTは、テキスト記述に基づいて高品質な音声サンプルを生成できるテキストto音楽およびテキストtoサウンドのモデルです。32kHz EnCodecトークナイザーを使用したマスク生成非自己回帰型Transformerモデルです。
nvidia
マルチルックアヘッドウィンドウをサポートするキャッシュ認識型FastConformer-Hybrid大規模モデルで、ストリーミング自動音声認識向けに設計されており、様々なレイテンシシナリオに対応可能
TheUpperCaseGuy
マイクロソフトのSpeechT5アーキテクチャに基づくウルドゥー語テキスト音声変換モデル
sail-rvc
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声をスパイダーマン・ユーリ・ローウェンタール風の音声に変換できます。
GreenCounsel
マイクロソフトのSpeechT5アーキテクチャをファインチューニングしたスウェーデン語テキスト音声変換モデル、Common Voiceデータセットでトレーニング
saattrupdan
スウェーデン語音響モデルをCommon Voice 8.0デンマーク語部分でファインチューニングした音声認識モデル
MCPプロトコルに基づく抖音動画処理サーバーで、ノーウォーターマーク動画のダウンロード、音声の抽出、テキストの変換機能をサポートします。
MCPフレームワークに基づく多機能なTTSサーバーで、KokoroのローカルTTSとOpenAIのクラウドTTSエンジンを統合し、リアルタイムオーディオストリーム、音声カスタマイズ、再生制御をサポートしています。
Content Coreは、AIによって駆動される多機能なコンテンツ抽出および処理プラットフォームで、ウェブページ、ドキュメント、音声/ビデオなどのさまざまなソースからコンテンツを抽出し、スマートなクリーニング、要約生成などの機能を提供します。コマンドライン、Pythonライブラリ、MCPサービスなどのさまざまな統合方法をサポートしています。
IntelliGlowはMCPプロトコルに基づくスマート照明システムで、AIアシスタントによって実際のスマート電球を制御し、音声コマンド、AI推論、および直接的なハードウェア制御をサポートし、自然言語対話とスマートな照明管理を実現します。
IntelliGlowは、MCPプロトコルに基づくAIスマート照明制御システムで、UDPネットワークを介して実際のスマート電球を直接制御し、音声コマンド、AI推論、ハードウェア制御をサポートし、自然言語対話とスマートホームをシームレスに接続します。
Fonosterは、オープンソースのTwilio代替品で、クラウドベースのプログラマブル電気通信スタックを提供し、多テナント、PBX機能のデプロイ、音声アプリケーション開発をサポートします。