Speechify在Chrome扩展中新增语音检测功能,支持语音输入和语音助手,旨在提升文档处理效率。该功能利用先进语音识别技术,实时纠错并自动删除多余填充词,帮助用户在竞争激烈的语音工具市场中脱颖而出。
字节跳动推出“豆包输入法”,安卓版已上线,iOS版即将发布。它基于豆包App语音模型,提升语音识别、语义理解和键盘输入效率,支持方言、英语及中英混合输入,适应轻声、快语和嘈杂环境,核心功能是语音后自动纠错。
复旦大学MOSS团队发布MOSS-Speech,首次实现端到端语音对话,模型已在Hugging Face上线并开源。采用“层拆分”架构,冻结原文本模型,新增语音理解、语义对齐和声码器层,可一次性完成语音问答、情绪模仿和笑声生成,无需传统三段式流程。评测显示,在ZeroSpeech2025任务中词错率降至4.1%,情感识别准确率达91.2%。
百度世界大会上,小度科技发布升级版多模态AI助手“超能小度”,整合语音、视觉和空间信息,提升感知能力。该助手支持听、说及环境识别,数千万小度设备可免费升级,推动人机交互进步,让用户体验更智能生活。
离线AI语音转文字应用,本地运行,隐私安全,一次付费,终身使用。
开源免费的 Wispr Flow 替代方案,为中文用户打造的桌面端语音输入与文本处理工具。
BlabbyAI Chrome扩展,快速准确将语音转换为文本,支持任意网站语音输入。
语音转文字工具,让你的语音变成干净标点的文字。
ycngin2024
这是一个经过微调的Whisper语音识别模型,基于unsloth/whisper-large-v3-turbo架构,使用Unsloth和Huggingface TRL库实现了2倍训练加速,显著提升了训练效率。
adoamesh
本模型是基于OpenAI Whisper-small模型针对斯瓦希里语进行微调的自动语音识别模型。在FLEURS-SLU数据集的斯瓦希里语部分进行训练,显著提升了斯瓦希里语的转录准确率,单词错误率相比基础模型降低了68%。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
teckedd
本模型是基于OpenAI Whisper-small在Common Voice 17.0数据集上微调的自动语音识别模型,专门针对Twi语言进行优化,能够实现语音内容的准确识别。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
kalilouisangare
这是一个基于 OpenAI Whisper Small 模型微调的班巴拉语语音识别模型,在 24738 个班巴拉语音频样本上训练,能够将班巴拉语语音准确转录为文本,字符错误率低至 21.69%。
Ken-Z
本模型是基于OpenAI Whisper-small在拉丁语上微调的自动语音识别模型,使用67小时拉丁语音频数据训练,字符错误率(CER)为20,支持拉丁语语音转文本任务。
ReportAId
MedWhisper Large ITA是基于OpenAI Whisper Large v3 Turbo的领域适配变体,专门针对意大利语医疗语音识别进行了优化。该模型在精心挑选的意大利语门诊专科就诊录音集上使用LoRA技术进行微调,显著提升了医学术语和临床表达的识别准确率。
eustlb
这是一个基于Hugging Face Transformers库的自动语音识别模型,能够将音频内容转换为文本。该模型支持多种语言,适用于实时语音转文字、音频转录等场景。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
feelmadrain
这是一个基于OpenAI Whisper Small架构的俄语自动语音识别模型,在Common Voice 17.0数据集上进行了专门训练,能够准确地将俄语语音转换为文本。
openchs
基于OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里语数据集上微调的语音识别模型,专为坦桑尼亚儿童求助热线的斯瓦希里语语音识别任务设计,相比基础模型在斯瓦希里语识别准确率上有显著提升。
BUT-FIT
SE-DiCoW是由BUT Speech@FIT联合JHU CLSP/HLTCOE和CMU LTI开发的目标说话人多说话人自动语音识别模型。该模型基于Whisper large-v3-turbo,通过自注册机制和改进的数据增强技术,在高度重叠的多说话人场景下显著提升了识别准确率。
UsefulSensors
Moonshine Tiny是由Moonshine AI(原有用传感器公司)开发的轻量级越南语自动语音识别模型,仅有27M参数,专为资源受限平台设计,在Fleurs和Common Voice 17数据集上表现出色。
jacktol
基于OpenAI Whisper Large v3模型微调的航空交通管制语音识别模型,专门针对ATC通信场景优化,在测试集上实现了6.5%的字错误率,显著提升了航空通信转录的准确性。
FluidInference
parakeet-tdt-0.6b-v3 是一款强大的多语言自动语音识别模型,支持英语、西班牙语、法语、德语等多种欧洲语言,基于FastConformer-TDT架构,使用公开数据集训练,为跨语言语音识别提供高效解决方案。
istupakov
NVIDIA Parakeet TDT 0.6B V3是一个多语言自动语音识别模型,参数量为6亿,支持包括英语、西班牙语、法语、德语等25种欧洲语言,可将语音转换为文本。
tiantiaf
基于Whisper-small架构的语音方言分类模型,专门用于识别8种中国方言变体,包括江淮方言、胶辽官话、冀鲁官话、兰银官话、普通话、西南官话、中原官话和粤语。该模型在Common Voice 11.0数据集上训练,具有重要的语音识别价值。
基于Whisper-small的英语方言分类模型,能够准确识别16种不同的英语方言,为语音处理和语言研究提供支持。
NexaAI
基于OpenAI Whisper架构微调的自动语音识别和语音翻译模型,通过减少解码层数量实现显著速度提升,同时保持接近原版的识别质量。
一个基于MCP协议的抖音视频处理服务器,支持无水印视频下载、音频提取和文本转换功能。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
基于Faster Whisper的高性能语音识别MCP服务器,提供高效的音频转写能力,支持批量处理、多模型尺寸和多种输出格式。
一个基于OpenAI API的音频转文字MCP服务器,提供音频转录功能并支持多种配置选项。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
基于MCP协议的智能宠物伴侣应用,通过语音识别和自然语言处理实现与虚拟宠物的互动,支持多平台运行。
ASR MCP服务器是一个基于whisper引擎的自动语音识别服务,通过MCP工具提供语音合成功能,便于应用集成。
TEN Agent是一个多功能AI代理框架,集成了实时视觉、语音识别和屏幕共享检测能力,支持快速扩展开发。