音声AI企業WisprがB+ラウンドで2500万ドルを調達、総額は8100万ドルに。主力製品Flow Dictationは3ヶ月で文字入力の50%を音声が占め、フォーチュン500企業270社を含む125機関に導入。ユーザー数は前年比100倍、12ヶ月定着率70%、月次成長率40%を維持。自社開発ASRの誤認識率は10%と高性能。....
MetaがOmnilingual ASRを発表。1600言語を高精度認識するAI音声技術を初実現。少数の音声サンプルで新言語を学習可能な「文脈学習」メカニズムを採用。オープンソース化により言語格差を解消し、危機言語や少数言語コミュニティのAI時代への統合を促進。....
メタがオムニリンガルASR音声認識システムを公開し、1600以上の言語を変換できるようにしました。そのうち500種類の言語はAIによって初めてカバーされました。このシステムは、世界中の7000種類以上の言語の中で多くの言語にAIのサポートがない問題を解決することを目的としています。これまでは数百種類の主要言語に焦点を当てていた制限を乗り越えました。
メタはOmnilingual ASR自動音声認識システムを発表しました。このシステムは1600を超える口語言語の変換に対応しており、AIツールの言語カバー不足問題を解決することを目的としています。従来の主流言語に特化した制限を乗り越え、汎用的な変換システムの実現を目指し、世界中の数千種類の言語がAIによってサポートされていないギャップを埋める支援を行います。
Nexa SDKは数分以内にAIモデルを任意のデバイスにデプロイでき、迅速でプライバシー保護に優れ、多様なシーンに適用できます。
音声AIのASR、TTS、LLMモデルを提供し、リアルタイムアプリケーション向けにテスト?デプロイ可能です。
PengChengStarlingは、icefallプロジェクトをベースとした多言語自動音声認識(ASR)モデル開発ツールキットです。
百聆はGPT-4oに類似した音声対話型ロボットです。ASR+LLM+TTSにより実現されており、低スペック環境でも動作し、割り込みも可能です。
Vikhrmodels
ボレアリスは、ロシア語向けの最初の自動音声認識(ASR)オーディオ大規模言語モデルで、約7000時間のロシア語オーディオデータで訓練されています。このモデルは、オーディオ内の句読点を認識することができ、アーキテクチャはVoxtralに影響を受けていますが、改良されており、複数のロシア語ASRベンチマークテストで優れた性能を発揮しています。
openchs
OpenAI Whisper Large v2をCommon Voice 17.0 スワヒリ語データセットでファインチューニングした音声認識モデルで、タンザニアの子供向けヘルプラインのスワヒリ語音声認識タスクに特化して設計されています。基本モデルと比較して、スワヒリ語の認識精度が大幅に向上しています。
MediaTek-Research
Breeze ASR 25は、Whisper-large-v2を微調整した高度な自動音声認識モデルで、台湾普通話と普通話 - 英語のコード切り替えシナリオの認識能力を特別に最適化しています。
unsloth
Whisperは事前学習済みの自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を持っています。
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、強力なゼロショット汎化能力を備えています。Turboバージョンはオリジナルのプルーニングおよび微調整バージョンで、デコード層を32層から4層に削減し、速度が大幅に向上していますが、品質はわずかに低下しています。
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、複数言語をサポート
istupakov
NVIDIA Parakeet TDT 0.6B V2 は自動音声認識(ASR)タスクに基づくモデルで、英語音声からテキストへの変換タスクに適しています。
mlx-community
このモデルはFastConformerアーキテクチャに基づく日本語自動音声認識(ASR)モデルで、NVIDIAによって開発されMLXフォーマットに変換されました。
ibm-granite
Granite-speech-3.3-2bはIBMが開発したコンパクトで効率的な音声言語モデルで、自動音声認識(ASR)と自動音声翻訳(AST)に特化して設計され、双方向設計を採用してモジュール性とセキュリティを向上させています。
GigaAM v2は自動音声認識(ASR)モデルで、ロシア語音声からテキストへの変換タスクをサポートし、CTCとRNN-Tの2つのアーキテクチャを提供します。
benax-rw
KinyaWhisperはOpenAI Whisperモデルをファインチューニングしたルワンダ語自動音声認識(ASR)システムで、低リソースの先住民言語向けに設計されています。
自動音声認識(ASR)と自動音声翻訳(AST)向けに設計されたコンパクトで効率的な音声言語モデル。オーディオとテキストを二段階で処理する設計
Purfview
Distil-WhisperはWhisperモデルの蒸留版で、自動音声認識(ASR)タスク向けに最適化され、より高速な推論を提供します。
sbapan41
Quantum_STT は、大規模な弱教師あり学習に基づく先進的な自動音声認識(ASR)および音声翻訳モデルで、複数の言語とタスクをサポートしています。
asr-africa
facebook/w2v-bert-2.0をファインチューニングしたハウサ語音声認識モデルで、500時間のハウサ語データで訓練され、単語誤り率7.47%
waveletdeboshir
GigaAM-v2-RNNT はロシア語自動音声認識(ASR)モデルで、RNNTアーキテクチャに基づいており、音声からテキストへの変換タスクに適しています。
Granite-speech-3.2-8b は、自動音声認識(ASR)と自動音声翻訳(AST)向けに設計されたコンパクトで効率的な音声言語モデルです。
pluttodk
現在最速のデンマーク語ASRモデルで、hviske-v2の蒸留版です。速度は約4倍向上しつつ、精度は維持されています。
GigaAM-v2-CTCはCTC損失関数でトレーニングされたロシア語自動音声認識(ASR)モデルで、Hugging Face transformersライブラリを通じて利用可能です。
junnei
microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。
ASR MCPサーバーは、whisperエンジンに基づく自動音声認識サービスで、MCPツールを通じて音声合成機能を提供し、アプリへの統合が容易です。