语音AI公司Wispr完成2500万美元B+轮融资,总融资额达8100万美元。其产品Flow Dictation上线三个月后,50%字符通过语音输入,已服务270家财富500强企业及125家付费机构。用户年同比增长100倍,12个月留存率70%,月环比增速稳定在40%。自研ASR错误率仅10%,技术表现突出。
Meta发布Omnilingual ASR系统,突破AI语音技术局限,首次实现对1600种语言的高精度识别。系统采用“上下文学习”机制,仅需少量音频样本即可快速学习新语言。这一开源技术打破语言“精英垄断”,推动数字平权,助力濒危和小语种社区融入AI时代。
Meta推出Omnilingual ASR语音识别系统,支持转录1600多种语言,其中500种语言首次被AI覆盖。该系统旨在解决全球7000多种语言中多数缺乏AI支持的问题,突破以往仅聚焦几百种主流语言的局限。
Meta推出Omnilingual ASR自动语音识别系统,支持转录超1600种口语语言,旨在解决AI工具语言覆盖不足问题。该系统突破传统仅专注少数主流语言的局限,推动实现“通用转录系统”目标,助力弥合全球数千种语言缺乏AI支持的差距。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Nexa SDK可在数分钟内将AI模型部署到任何设备上,快速、私密且适用于多场景。
PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别(ASR)模型开发工具包。
百聆是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,低配置也可运行,支持打断。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
openchs
基于OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里语数据集上微调的语音识别模型,专为坦桑尼亚儿童求助热线的斯瓦希里语语音识别任务设计,相比基础模型在斯瓦希里语识别准确率上有显著提升。
MediaTek-Research
Breeze ASR 25 是一款基于 Whisper-large-v2 微调的先进自动语音识别模型,特别优化了台湾普通话和普通话-英语代码切换场景的识别能力。
unsloth
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,支持多种语言
istupakov
NVIDIA Parakeet TDT 0.6B V2 是一个基于自动语音识别(ASR)任务的模型,适用于英语语音转文本任务。
mlx-community
该模型是基于FastConformer架构的日语自动语音识别(ASR)模型,由NVIDIA开发并转换为MLX格式。
ibm-granite
Granite-speech-3.3-2b是IBM开发的紧凑高效语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计,采用双通设计提高模块化和安全性。
GigaAM v2 是一个自动语音识别(ASR)模型,支持俄语语音转文本任务,提供CTC和RNN-T两种架构。
benax-rw
KinyaWhisper是基于OpenAI Whisper模型微调的卢旺达语自动语音识别(ASR)系统,专为低资源土著语言设计。
专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型,采用双阶段设计处理音频和文本
Purfview
Distil-Whisper是Whisper模型的蒸馏版本,针对自动语音识别(ASR)任务进行了优化,提供更快的推理速度。
sbapan41
Quantum_STT 是一种先进的自动语音识别(ASR)和语音翻译模型,基于大规模弱监督训练,支持多种语言和任务。
asr-africa
基于facebook/w2v-bert-2.0微调的豪萨语语音识别模型,在500小时豪萨语数据上训练,词错误率7.47%
waveletdeboshir
GigaAM-v2-RNNT 是一个俄语自动语音识别(ASR)模型,基于RNNT架构,适用于语音转文本任务。
Granite-speech-3.2-8b 是一款紧凑高效的语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计。
pluttodk
目前最快的丹麦语ASR模型,是hviske-v2的蒸馏版本,速度提升约4倍且保持准确率不变。
GigaAM-v2-CTC 是一个俄语自动语音识别(ASR)模型,基于CTC损失函数训练,可通过Hugging Face transformers库使用。
junnei
基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型,在zeroth-korean和fleurs数据集上表现优异。
ASR MCP服务器是一个基于whisper引擎的自动语音识别服务,通过MCP工具提供语音合成功能,便于应用集成。