小米AIグラスのファームウェアが1.4.16.0に更新され、抖音(ドウイン)ライブ配信への対応、小愛同學による車の制御機能が追加され、さらに「英語会話トレーニング」の特徴的なサービスが提供される。ユーザーは音声コマンドで起動でき、小愛同學と自然な会話をすることで英語の発音能力を向上させ、デバイスのスマート性とユーザー体験を強化できる。
グーグルGeminiアプリのアップデートで、ビデオプロンプトに複数の参照画像をアップロードできるようになりました。テキストを組み合わせてビデオと音声を生成し、ユーザーがビデオの外観や音声をより正確に制御できるようにしました。この機能はFlowプラットフォームでテストされており、Flowではビデオの拡張やシーンのつなぎ替えもサポートしており、より高品質なビデオを提供します。
Maya Researchが発表したMaya1テキストから音声への変換モデルは、30億パラメータを備え、単一のGPUでリアルタイムで動作可能です。このモデルは自然言語の説明およびテキスト入力に基づき、制御可能な表現力豊かな音声を生成し、年齢や訛り、またはキャラクターの特徴などを指定して人間の感情と声の詳細を正確に模倣します。
StepFun AIがオープンソース「Step-Audio-EditX」を公開。30億パラメータ音声言語モデルにより、音声編集をテキストトークンのように制御可能に。従来の波形処理を超え、arXivに論文公開(2511.03601)。....
音声駆動の全身ビデオボイスオーバープラットフォームで、疎なフレーム制御と長シーケンスの画像からビデオへの生成をサポートします。
最高のAIアシスタントでGmailを管理し、デバイスに触れることなく音声コマンドで受信トレイを管理できます。
Zonos TTSは、多言語対応、感情制御、ゼロサンプルテキスト音声クローンに対応した高品質なAIテキスト音声変換技術です。
産業レベルで制御可能な、効率的なゼロショットテキスト音声変換システム
Alissonerdx
HuMoは統一的で人を中心としたビデオ生成フレームワークで、テキスト、画像、音声などのマルチモーダル入力に基づいて、高品質、細粒度で制御可能な人間のビデオを生成できます。強力なテキストプロンプト追従、一貫した主体保持、同期した音声駆動型モーションをサポートします。
VeryAladeen
HuMoは人を中心としたビデオ生成フレームワークで、テキスト、画像、音声などのマルチモーダル入力を利用して、高品質、細粒度で制御可能な人間のビデオを生成することができます。テキストプロンプトの追従、主体の保持、音声駆動運動の同期をサポートします。
notmax123
Zonos-v0.1は、20万時間以上の多言語音声データを基にトレーニングされた、最先端のオープンソースのテキスト読み上げ(TTS)モデルです。表现力と品質は、トップレベルのTTSサプライヤーと匹敵します。ゼロショット音声クローン、多言語合成、および細かいオーディオ制御をサポートしています。
Lorenzob
Aurora-1.6BはDia-1.6Bをファインチューニングした多言語感情・歌唱音声合成モデルで、複数言語と感情制御をサポートし、ゼロショット音色クローン能力を備えています。
Dia-1.6Bをファインチューニングした多言語感情・歌唱音声合成モデル、音色クローンと感情制御をサポート
Emova-ollm
EMOVAはエンドツーエンドの全モーダル対応大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情制御可能なテキストと音声応答を生成できます。
Prince-1
Llamaアーキテクチャに基づく音声大規模モデルで、高品質なテキスト読み上げを設計し、感情制御とリアルタイムストリーミングをサポート
2121-8
llm-jp/llm-jp-3-150m-instruct3をベースに訓練した日本語TTS音声合成システムで、プロンプトによる音質制御が可能
nari-labs
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。
HKUSTAudio
AudioXは任意のコンテンツから音声や音楽を生成できる統一拡散トランスフォーマーモデルです。高品質な汎用音声と音楽作品を生成し、柔軟な自然言語制御を提供し、複数のモダリティ入力をシームレスに処理できます。
YaTharThShaRma999
Llamaアーキテクチャに基づく高品質なテキスト読み上げモデル、感情制御と音声クローニングをサポート
chutesai
Llamaアーキテクチャに基づく高品質なテキスト音声変換モデル、感情制御と音色クローニングをサポート
ajd12342
テキストスタイルプロンプトで豊かな音声スタイルを制御できるテキスト読み上げモデル
Parler-TTS Mini v1をファインチューニングしたテキスト音声変換モデルで、スタイルプロンプトによる音声出力制御をサポート
firstpixel
F5-TTSベースのブラジルポルトガル語テキスト音声変換モデル、感情タグと話者特徴制御をサポート
EMOVA音声トークナイザーは、中英両言語に対応した離散音声トークナイザーで、意味-音響デカップリング設計を採用し、柔軟な音声スタイル制御をサポートします。
mradovic38
wav2vec2に基づくセルビア語のスマートホーム音声コマンド認識モデルで、7種類の制御コマンドを認識できます。
parler-tts
Parler-TTS Mini v1.1は軽量型のテキスト音声変換モデルで、45,000時間のオーディオデータを基に訓練され、高品質で自然な流れの良い音声を生成できます。その特性は簡単なテキストプロンプトで制御できます。
軽量級のテキスト音声変換モデルで、4.5万時間の音声データを基に訓練され、テキストプロンプトで音声特性を制御できます。
22億パラメータを持つテキスト音声変換モデル、4.5万時間の音声データで訓練され、テキストプロンプトによる音声特徴の制御をサポート
ClaudeなどのLLMインターフェイスを通じてフィリップスHueスマートライトを制御するMCPサーバープロジェクト
MacOS上でアプリを実行するためのMCPサーバーアプリ
SystemPrompt Coding Agentは、オープンソースプロジェクトで、ローカルワークステーションをMCPプロトコルでリモート制御可能なAIプログラミングアシスタントに変えます。音声コマンドとモバイル端末での操作をサポートし、異なる場所でのプログラミング管理を実現します。
TeamSpeak MCPは、Model Context Protocolに基づくサーバー制御ツールで、ClaudeなどのAIモデルがTeamSpeak音声サーバーを管理できるように設計されています。ユーザー管理、チャンネル制御、権限設定などの包括的な操作をカバーする39種類の機能ツールを提供し、複数のデプロイ方法(PyPI/Docker/ローカル)をサポートして、TeamSpeakの自動管理を実現します。
TeamSpeak MCPは、Model Context Protocolに基づくサービスで、AIモデル(Claudeなど)を通じてTeamSpeakサーバーを制御し、包括的なチャンネル管理、ユーザー権限制御、音声調整などの機能を提供します。
MCPフレームワークに基づく多機能なTTSサーバーで、KokoroのローカルTTSとOpenAIのクラウドTTSエンジンを統合し、リアルタイムオーディオストリーム、音声カスタマイズ、再生制御をサポートしています。
統一インターフェースを提供してSpotifyの再生を制御するメディア制御プロトコルサーバーで、REST API、AIアシスタント、および音声制御をサポートします。
Home Assistant MCP統合スイートは、複数のMCPサーバー(Microsoft 365、BookStack、Lokiなど)を完全に接続し、音声制御を実現し、統一された拡張可能なスマートホーム管理インターフェイスを提供します。
Windows TTS MCPサーバーは、PowerShellベースのテキストを音声に変換するサービスで、Claude Desktopに安定した効率的なTTS機能を提供し、音声制御、速度調整、緊急ミュートなどの操作をサポートしています。
IntelliGlowはMCPプロトコルに基づくスマート照明システムで、AIアシスタントによって実際のスマート電球を制御し、音声コマンド、AI推論、および直接的なハードウェア制御をサポートし、自然言語対話とスマートな照明管理を実現します。
IntelliGlowは、MCPプロトコルに基づくAIスマート照明制御システムで、UDPネットワークを介して実際のスマート電球を直接制御し、音声コマンド、AI推論、ハードウェア制御をサポートし、自然言語対話とスマートホームをシームレスに接続します。