微信输入法iOS版升级至3.0.0,核心转向语音优先交互。新版重构语音输入,底层大模型全面升级,提升识别速度与准确度,并加强实用性、语言覆盖和隐私保护。最大亮点是新增对15种中国方言的深度支持,如粤语等。
微信输入法iOS新版内测,核心升级语音输入。底层大模型优化,识别更快更准。最大亮点是原生支持多语言与多方言,用户说中文、英文或多种方言时,系统可自动识别,无需手动切换。
智谱AI推出GLM-ASR系列开源语音识别模型,并发布桌面端“智谱AI输入法”,提升PC语音输入体验。其中GLM-ASR-2512云端模型支持实时转写,在复杂环境中表现优异,字符错误率(CER)极低。
Speechify在Chrome扩展中新增语音检测功能,支持语音输入和语音助手,旨在提升文档处理效率。该功能利用先进语音识别技术,实时纠错并自动删除多余填充词,帮助用户在竞争激烈的语音工具市场中脱颖而出。
始终在线的语音工具包,支持语音输入、会议总结等功能
Sayline是一款语音录入工具,语音输入,文字即现,速度超手动打字4倍。
2025全新发布的AI语音输入法,毫秒响应,精准识别,智能重组语言。
闪电说 AI 语音输入法,比打字快 4 倍,提升创作效率。
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
$1.5
$1.6
32
wcy1122
MGM-Omni-7B是一款全模态聊天机器人,能够处理文本、图像、视频和语音输入,并生成文本和语音响应。它具备长语音理解和生成能力,还支持中英文的零样本语音克隆。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
onecxi
开源印度语言识别模型,支持从语音输入中检测和分类多种印度语言
KevSun
基于BERT架构的文本分类模型,用于评估用户文本或语音输入中的心理健康问题严重程度
yaygomii
该模型是基于whisper-small架构的方言分类器,用于识别和分类特定方言的语音输入。
facebook
该模型是Facebook大规模多语言语音项目的一部分,基于Wav2Vec2架构,能够识别1024种语言的语音输入。
wbbbbb
基于XLSR-53大模型微调的中文语音识别模型,支持16kHz采样率的语音输入
jonatasgrosman
基于facebook/wav2vec2-large-robust模型微调的瑞典语自动语音识别模型,支持16kHz采样率语音输入。
基于microsoft/wavlm-large微调的瑞典语自动语音识别模型,适用于16kHz采样率的语音输入。
基于微软UniSpeech-SAT-Large模型微调的英语语音识别模型,支持16kHz采样率的语音输入。
abidlabs
基于facebook/wav2vec2-large-xlsr-53在英语通用语音数据集上微调的自动语音识别模型,支持16kHz采样率的英语语音输入。
这是一个基于XLS-R 10亿参数模型微调的波兰语自动语音识别(ASR)模型,在Common Voice 8.0等数据集上训练,支持16kHz采样率的语音输入。
comodoro
这是一个基于facebook/wav2vec2-xls-r-300m在捷克语数据集上微调的自动语音识别模型,支持16kHz采样率的语音输入。
skylord
基于facebook/wav2vec2-large-xlsr-53在希腊语上微调的语音识别模型,支持16kHz采样率的语音输入。
not-tanh
基于facebook/wav2vec2-large-xlsr-53模型微调的越南语自动语音识别模型,支持16kHz采样率的语音输入。
m3hrdadfi
基于facebook/wav2vec2-large-xlsr-53在波斯语(Farsi)上微调的自动语音识别模型,支持16kHz采样率的语音输入。
mohammed
基于facebook/wav2vec2-large-xlsr-53模型微调的阿拉伯语自动语音识别模型,支持16kHz采样率语音输入
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入