微信输入法iOS版升级至3.0.0,核心转向语音优先交互。新版重构语音输入,底层大模型全面升级,提升识别速度与准确度,并加强实用性、语言覆盖和隐私保护。最大亮点是新增对15种中国方言的深度支持,如粤语等。
微信输入法iOS新版内测,核心升级语音输入。底层大模型优化,识别更快更准。最大亮点是原生支持多语言与多方言,用户说中文、英文或多种方言时,系统可自动识别,无需手动切换。
智谱团队开源四项视频生成核心技术,包括GLM-4.6V视觉理解、AutoGLM设备控制、GLM-ASR语音识别和GLM-TTS语音合成模型,展示其在多模态领域的最新进展,为视频生成技术发展奠定基础。
智谱AI推出GLM-ASR系列开源语音识别模型,并发布桌面端“智谱AI输入法”,提升PC语音输入体验。其中GLM-ASR-2512云端模型支持实时转写,在复杂环境中表现优异,字符错误率(CER)极低。
先进的文本转语音模型,提供高质量的语音合成服务。
一款支持中英文的对话语音合成模型。
使用低延迟语音识别和合成模型与 AI 对话。
一款高质量的英语自动语音识别模型,支持标点符号和时间戳预测。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
kyr0
这是一个专为苹果硅芯片设备优化的自动语音识别模型,通过转换为MLX框架并量化为FP8格式,实现在苹果设备上的快速端上语音转录。该模型针对逐字精度进行微调,特别适用于需要高精度转录的场景。
ai-sage
GigaAM-v3是基于Conformer架构的俄语自动语音识别基础模型,拥有2.2-2.4亿参数。它是GigaAM系列的第三代模型,在70万小时俄语语音数据上使用HuBERT-CTC目标进行预训练,在广泛的俄语ASR领域提供最先进的性能。
abr-ai
这是一个由Applied Brain Research(ABR)开发的基于状态空间模型(SSM)的英文自动语音识别模型,拥有约1900万参数,能够高效准确地将英文语音转录为文本。该模型在多个基准数据集上表现出色,平均单词错误率仅为10.61%,支持实时语音识别并可在低成本硬件上运行。
ycngin2024
这是一个经过微调的Whisper语音识别模型,基于unsloth/whisper-large-v3-turbo架构,使用Unsloth和Huggingface TRL库实现了2倍训练加速,显著提升了训练效率。
adoamesh
本模型是基于OpenAI Whisper-small模型针对斯瓦希里语进行微调的自动语音识别模型。在FLEURS-SLU数据集的斯瓦希里语部分进行训练,显著提升了斯瓦希里语的转录准确率,单词错误率相比基础模型降低了68%。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
MERaLiON
MERaLiON-SER-v1 是一个参数高效的多语言语音情感识别模型,能够同时预测7种离散情感类别和连续的情感维度值。该模型基于Whisper-Medium编码器构建,采用LoRA自适应技术,在多语言语音情感识别任务中表现出色。
teckedd
本模型是基于OpenAI Whisper-small在Common Voice 17.0数据集上微调的自动语音识别模型,专门针对Twi语言进行优化,能够实现语音内容的准确识别。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
kalilouisangare
这是一个基于 OpenAI Whisper Small 模型微调的班巴拉语语音识别模型,在 24738 个班巴拉语音频样本上训练,能够将班巴拉语语音准确转录为文本,字符错误率低至 21.69%。
Ken-Z
本模型是基于OpenAI Whisper-small在拉丁语上微调的自动语音识别模型,使用67小时拉丁语音频数据训练,字符错误率(CER)为20,支持拉丁语语音转文本任务。
ReportAId
MedWhisper Large ITA是基于OpenAI Whisper Large v3 Turbo的领域适配变体,专门针对意大利语医疗语音识别进行了优化。该模型在精心挑选的意大利语门诊专科就诊录音集上使用LoRA技术进行微调,显著提升了医学术语和临床表达的识别准确率。
eustlb
这是一个基于Hugging Face Transformers库的自动语音识别模型,能够将音频内容转换为文本。该模型支持多种语言,适用于实时语音转文字、音频转录等场景。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
feelmadrain
这是一个基于OpenAI Whisper Small架构的俄语自动语音识别模型,在Common Voice 17.0数据集上进行了专门训练,能够准确地将俄语语音转换为文本。
openchs
基于OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里语数据集上微调的语音识别模型,专为坦桑尼亚儿童求助热线的斯瓦希里语语音识别任务设计,相比基础模型在斯瓦希里语识别准确率上有显著提升。
BUT-FIT
SE-DiCoW是由BUT Speech@FIT联合JHU CLSP/HLTCOE和CMU LTI开发的目标说话人多说话人自动语音识别模型。该模型基于Whisper large-v3-turbo,通过自注册机制和改进的数据增强技术,在高度重叠的多说话人场景下显著提升了识别准确率。
UsefulSensors
Moonshine Tiny是由Moonshine AI(原有用传感器公司)开发的轻量级越南语自动语音识别模型,仅有27M参数,专为资源受限平台设计,在Fleurs和Common Voice 17数据集上表现出色。
jacktol
基于OpenAI Whisper Large v3模型微调的航空交通管制语音识别模型,专门针对ATC通信场景优化,在测试集上实现了6.5%的字错误率,显著提升了航空通信转录的准确性。
FluidInference
parakeet-tdt-0.6b-v3 是一款强大的多语言自动语音识别模型,支持英语、西班牙语、法语、德语等多种欧洲语言,基于FastConformer-TDT架构,使用公开数据集训练,为跨语言语音识别提供高效解决方案。
基于Faster Whisper的高性能语音识别MCP服务器,提供高效的音频转写能力,支持批量处理、多模型尺寸和多种输出格式。
该项目扩展了视频语音识别功能,从仅支持本地Whisper模型,新增支持简影和B站剪辑的在线语音识别服务,提供了灵活的多服务选择架构。