Google在非洲推出WAXAL语音数据集,涵盖21种非洲语言,旨在提升AI系统对非洲语言的识别准确率。其核心突破在于将数据所有权归还给非洲本地机构,而非由Google掌控,解决了数据主权问题。
法国AI公司Mistral AI发布两款语音转文字模型Voxtral Mini Transcribe V2和Voxtral Realtime,主打高速转录、隐私保护和性价比。模型具备高精度转录、说话人识别和低延迟特性,适用于虚拟助手、呼叫中心及合规记录等商业场景。
苹果收购以色列AI音频公司Q.ai,旨在提升iPhone等设备语音助手在复杂环境下的识别能力。Q.ai团队整体并入苹果,其CEO Aviad Maizels已是第二次将公司出售给苹果,此前PrimeSense于2013年被收购。此举强化了苹果在AI语音交互领域的技术布局。
腾讯搜狗输入法发布20.0.0纪念版,全面AI化升级。依托腾讯混元大模型,重点提升AI语音、翻译和打字功能。AI语音识别延时降低40%,准确率达98%,方言识别准确率提升30%。
快速准确将音频和视频转换为文本,适用于讲座、访谈等
专为 Mac 用户设计的 AI 语音助手,通过语音指令实现润色、翻译及自动化办公。
一体化AI创意平台,集视频、图像、音乐、语音合成等功能于一体。
2025全新发布的AI语音输入法,毫秒响应,精准识别,智能重组语言。
Anthropic
$21
Input tokens/M
$105
Output tokens/M
200
Context Length
Alibaba
$1
$10
256
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
Baidu
32
$2.4
$12
8
Tencent
$0.3
$3
$9
$1.6
kyr0
这是一个专为苹果硅芯片设备优化的自动语音识别模型,通过转换为MLX框架并量化为FP8格式,实现在苹果设备上的快速端上语音转录。该模型针对逐字精度进行微调,特别适用于需要高精度转录的场景。
ai-sage
GigaAM-v3是基于Conformer架构的俄语自动语音识别基础模型,拥有2.2-2.4亿参数。它是GigaAM系列的第三代模型,在70万小时俄语语音数据上使用HuBERT-CTC目标进行预训练,在广泛的俄语ASR领域提供最先进的性能。
abr-ai
这是一个由Applied Brain Research(ABR)开发的基于状态空间模型(SSM)的英文自动语音识别模型,拥有约1900万参数,能够高效准确地将英文语音转录为文本。该模型在多个基准数据集上表现出色,平均单词错误率仅为10.61%,支持实时语音识别并可在低成本硬件上运行。
ycngin2024
这是一个经过微调的Whisper语音识别模型,基于unsloth/whisper-large-v3-turbo架构,使用Unsloth和Huggingface TRL库实现了2倍训练加速,显著提升了训练效率。
adoamesh
本模型是基于OpenAI Whisper-small模型针对斯瓦希里语进行微调的自动语音识别模型。在FLEURS-SLU数据集的斯瓦希里语部分进行训练,显著提升了斯瓦希里语的转录准确率,单词错误率相比基础模型降低了68%。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
MERaLiON
MERaLiON-SER-v1 是一个参数高效的多语言语音情感识别模型,能够同时预测7种离散情感类别和连续的情感维度值。该模型基于Whisper-Medium编码器构建,采用LoRA自适应技术,在多语言语音情感识别任务中表现出色。
teckedd
本模型是基于OpenAI Whisper-small在Common Voice 17.0数据集上微调的自动语音识别模型,专门针对Twi语言进行优化,能够实现语音内容的准确识别。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
kalilouisangare
这是一个基于 OpenAI Whisper Small 模型微调的班巴拉语语音识别模型,在 24738 个班巴拉语音频样本上训练,能够将班巴拉语语音准确转录为文本,字符错误率低至 21.69%。
Ken-Z
本模型是基于OpenAI Whisper-small在拉丁语上微调的自动语音识别模型,使用67小时拉丁语音频数据训练,字符错误率(CER)为20,支持拉丁语语音转文本任务。
ReportAId
MedWhisper Large ITA是基于OpenAI Whisper Large v3 Turbo的领域适配变体,专门针对意大利语医疗语音识别进行了优化。该模型在精心挑选的意大利语门诊专科就诊录音集上使用LoRA技术进行微调,显著提升了医学术语和临床表达的识别准确率。
eustlb
这是一个基于Hugging Face Transformers库的自动语音识别模型,能够将音频内容转换为文本。该模型支持多种语言,适用于实时语音转文字、音频转录等场景。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
feelmadrain
这是一个基于OpenAI Whisper Small架构的俄语自动语音识别模型,在Common Voice 17.0数据集上进行了专门训练,能够准确地将俄语语音转换为文本。
openchs
基于OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里语数据集上微调的语音识别模型,专为坦桑尼亚儿童求助热线的斯瓦希里语语音识别任务设计,相比基础模型在斯瓦希里语识别准确率上有显著提升。
BUT-FIT
SE-DiCoW是由BUT Speech@FIT联合JHU CLSP/HLTCOE和CMU LTI开发的目标说话人多说话人自动语音识别模型。该模型基于Whisper large-v3-turbo,通过自注册机制和改进的数据增强技术,在高度重叠的多说话人场景下显著提升了识别准确率。
UsefulSensors
Moonshine Tiny是由Moonshine AI(原有用传感器公司)开发的轻量级越南语自动语音识别模型,仅有27M参数,专为资源受限平台设计,在Fleurs和Common Voice 17数据集上表现出色。
jacktol
基于OpenAI Whisper Large v3模型微调的航空交通管制语音识别模型,专门针对ATC通信场景优化,在测试集上实现了6.5%的字错误率,显著提升了航空通信转录的准确性。
FluidInference
parakeet-tdt-0.6b-v3 是一款强大的多语言自动语音识别模型,支持英语、西班牙语、法语、德语等多种欧洲语言,基于FastConformer-TDT架构,使用公开数据集训练,为跨语言语音识别提供高效解决方案。
一个基于MCP协议的抖音视频处理服务器,支持无水印视频下载、音频提取和文本转换功能。
Jarvis MCP是一个基于浏览器的语音对话工具,让用户能通过麦克风与AI助手进行自然语音对话,支持30多种语言识别和远程访问,无需额外安装软件或API密钥。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
基于Faster Whisper的高性能语音识别MCP服务器,提供高效的音频转写能力,支持批量处理、多模型尺寸和多种输出格式。
一个基于OpenAI API的音频转文字MCP服务器,提供音频转录功能并支持多种配置选项。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
该项目扩展了视频语音识别功能,从仅支持本地Whisper模型,新增支持简影和B站剪辑的在线语音识别服务,提供了灵活的多服务选择架构。
基于MCP协议的智能宠物伴侣应用,通过语音识别和自然语言处理实现与虚拟宠物的互动,支持多平台运行。
为Claude Code提供语音交互模式的MCP服务,支持通过浏览器进行免提的连续双向语音对话,包含语音识别和文本转语音功能。
ASR MCP服务器是一个基于whisper引擎的自动语音识别服务,通过MCP工具提供语音合成功能,便于应用集成。
TEN Agent是一个多功能AI代理框架,集成了实时视觉、语音识别和屏幕共享检测能力,支持快速扩展开发。
MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术,支持持久化说话人识别(一次注册,永久识别)、双检测器情感分析(结合通用AI与个性化声纹)、实时流处理、REST API和MCP服务器,专为AI智能体集成和爱好项目设计。