字节跳动旗下AI编程平台TRAE在SOLO模式中推出内置语音输入功能,并与影石Insta360联合发布Mic Air TRAE联名无线麦克风套装。该组合使“Vibe Coding”和语音办公更易落地,用户可通过自然语音实现结构化转录、语义修正及语音控制AI命令,推动“动嘴不动手”的高效工作方式在开发者和职场人群中流行,语音输入不再仅限于“念什么写什么”。
小米发布MiMo-V2.5全链路语音模型系列,包括三款TTS模型和一款开源ASR模型,覆盖语音输入与输出。TTS模型能精准调度情绪、语气和角色身份,让声音可编程、可创作、可复刻,提升人机交互自然度,开启语音智能新纪元。
谷歌在iOS平台推出实验性语音输入应用“Google AI Edge Eloquent”,主打离线优先和智能润色功能,利用边缘AI技术将口语实时转化为专业文本。此举标志着谷歌进入高端AI语音转文字市场,与Wispr Flow和SuperWhisper竞争。应用搭载Gemma4系列技术,强调实时处理和文本优化能力。
谷歌发布开源大模型Gemma4,通过“单位参数智能”提升,为开源模型辅助智能体工作流设定新标准。该系列包含2.3B、4.5B高效版及26B、31B高性能版,基于Gemini3技术栈,全系支持多模态输入,部分版本原生支持语音输入,实现端侧实时语音理解。
Mac语音优先应用,支持会议记录、语音笔记和听写,本地模式免费
实时字幕和语音输入,适用于桌面端各类对话,支持翻译和多语言。
适用于macOS的AI输入工具,提升输入速度,具备多种智能功能。
始终在线的语音工具包,支持语音输入、会议总结等功能
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
$1.5
$1.6
32
wcy1122
MGM-Omni-7B是一款全模态聊天机器人,能够处理文本、图像、视频和语音输入,并生成文本和语音响应。它具备长语音理解和生成能力,还支持中英文的零样本语音克隆。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
onecxi
开源印度语言识别模型,支持从语音输入中检测和分类多种印度语言
KevSun
基于BERT架构的文本分类模型,用于评估用户文本或语音输入中的心理健康问题严重程度
yaygomii
该模型是基于whisper-small架构的方言分类器,用于识别和分类特定方言的语音输入。
facebook
该模型是Facebook大规模多语言语音项目的一部分,基于Wav2Vec2架构,能够识别1024种语言的语音输入。
wbbbbb
基于XLSR-53大模型微调的中文语音识别模型,支持16kHz采样率的语音输入
jonatasgrosman
基于facebook/wav2vec2-large-robust模型微调的瑞典语自动语音识别模型,支持16kHz采样率语音输入。
基于microsoft/wavlm-large微调的瑞典语自动语音识别模型,适用于16kHz采样率的语音输入。
基于微软UniSpeech-SAT-Large模型微调的英语语音识别模型,支持16kHz采样率的语音输入。
abidlabs
基于facebook/wav2vec2-large-xlsr-53在英语通用语音数据集上微调的自动语音识别模型,支持16kHz采样率的英语语音输入。
这是一个基于XLS-R 10亿参数模型微调的波兰语自动语音识别(ASR)模型,在Common Voice 8.0等数据集上训练,支持16kHz采样率的语音输入。
comodoro
这是一个基于facebook/wav2vec2-xls-r-300m在捷克语数据集上微调的自动语音识别模型,支持16kHz采样率的语音输入。
not-tanh
基于facebook/wav2vec2-large-xlsr-53模型微调的越南语自动语音识别模型,支持16kHz采样率的语音输入。
skylord
基于facebook/wav2vec2-large-xlsr-53在希腊语上微调的语音识别模型,支持16kHz采样率的语音输入。
m3hrdadfi
基于facebook/wav2vec2-large-xlsr-53在波斯语(Farsi)上微调的自动语音识别模型,支持16kHz采样率的语音输入。
mohammed
基于facebook/wav2vec2-large-xlsr-53模型微调的阿拉伯语自动语音识别模型,支持16kHz采样率语音输入
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入