腾讯搜狗输入法发布20.0.0纪念版,全面AI化升级。依托腾讯混元大模型,重点提升AI语音、翻译和打字功能。AI语音识别延时降低40%,准确率达98%,方言识别准确率提升30%。
公司发布新一代开源医疗大模型MedGemma 1.5及临床语音识别模型MedASR,强化医疗技术布局。MedGemma 1.5基于Gemma系列,重点提升医学影像理解能力,可处理文本病历、检验报告、医学文献及X光、CT等影像数据,辅助初步筛查与诊断。
微信输入法iOS版升级至3.0.0,核心转向语音优先交互。新版重构语音输入,底层大模型全面升级,提升识别速度与准确度,并加强实用性、语言覆盖和隐私保护。最大亮点是新增对15种中国方言的深度支持,如粤语等。
微信输入法iOS新版内测,核心升级语音输入。底层大模型优化,识别更快更准。最大亮点是原生支持多语言与多方言,用户说中文、英文或多种方言时,系统可自动识别,无需手动切换。
Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。
一个用于生成播客及其他音频文件转录文本的工具,支持多种语言模型和语音识别API。
可扩展的流媒体语音合成技术,结合大型语言模型。
一款通过纯语言模型实现的文本到语音合成模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
NexaAI
Parakeet TDT 0.6B v2 MLX是一款高效的自动语音识别模型,支持标点、大小写和精确时间戳预测,能够转录长达24分钟的音频片段,适用于商业和非商业用途。
fixie-ai
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
unsloth
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
nvidia
拥有6亿参数的自动语音识别模型,支持英文转录、标点符号、大小写和时间戳预测
sbapan41
Quantum_STT 是一种先进的自动语音识别(ASR)和语音翻译模型,基于大规模弱监督训练,支持多种语言和任务。
distil-whisper
Distil-Whisper是Whisper模型的蒸馏版本,通过大规模伪标签技术实现高效语音识别
Daemontatox
Whisper large-v3-turbo 是 OpenAI 提出的自动语音识别和语音翻译模型,基于大规模弱监督训练,支持多种语言。
speechbrain
这是一个基于25000小时英文语音数据集训练的大规模自动语音识别模型,采用Conformer架构,由三星AI剑桥中心贡献。模型参数量达4.8亿,在多个测试集上表现出色,验证集WER为6.8%,测试集WER为7.5%。
khanhld
ChunkFormer-CTC-Large-Vie是一个基于ChunkFormer架构的大规模越南语自动语音识别模型,在ICASSP 2025会议上提出。该模型在约3000小时的公开越南语语音数据上进行了微调,在多个越南语ASR基准测试中表现出色,超越了包括PhoWhisper-large和Whisper-large-v3在内的多个知名模型。
基于ChunkFormer架构的大规模越南语自动语音识别模型,在约3000小时的越南语公开语音数据上微调,性能优异。
这是一个用于葡萄牙语语音识别的大规模模型,采用FastConformer混合架构,结合Transducer和CTC解码器。模型具备标点符号和大小写识别功能,在约2200小时的葡萄牙语语音数据上训练,能够准确转录巴西葡萄牙语语音。
reazon-research
基于wav2vec 2.0 Large架构,在大型日语ASR语料库ReazonSpeech v2.0上微调而成的日语自动语音识别模型
这是一个基于FastConformer架构的大型乌兹别克语语音识别模型,支持Transducer和CTC双重解码,在多个测试集上表现出色。
onnx-community
基于ONNX格式优化的Whisper大型语音识别模型,专为网页端部署设计
由NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型,支持标点符号和大小写转换,采用FastConformer-TDT-CTC架构
基于大规模日语自动语音识别语料库ReazonSpeech v2.0微调的wav2vec 2.0 Base模型,适用于日语自动语音识别任务。
Whisper是一个通用的语音识别模型,由OpenAI训练。该模型基于大规模弱监督训练,支持多种语言的语音转录。
Parakeet TDT-CTC 1.1B 是一个自动语音识别模型,能够转录带有标点和大小写的英文语音,由NVIDIA NeMo和Suno.ai联合开发。