微软发布全新语音转文字模型MAI-Transcribe-1,在25种语言上平均词错误率仅3.9%,成为全球最精准转写模型。该模型在FLEURS基准测试中表现优异,尤其在英语等11种核心语言上效果突出。这是微软MAI系列第三款产品,此前已推出语音合成和图像生成模型。
HeyGen发布新一代视频翻译引擎,通过上下文感知翻译、语音情感迁移和口型同步三大技术,实现跨语言视频本地化。外国演讲者不仅能说地道中文,连语气、表情和唇动都自然逼真,达到“以假乱真”效果,推动“一人拍摄,全球共鸣”。
豆包语音团队推出“AI多人有声剧”全自动生产方案,实现从小说文本到成品广播剧的端到端无人化制作。无需配音、剪辑和人工干预,成本大降、效率提升,效果接近专业水准,角色识别准确率达98%。
Fish Audio发布升级版S1语音克隆模型,在情感表现力和拟真度上实现突破。该模型能生成富有情绪、节奏和语气变化的真人级声音,仅需10秒语音样本即可克隆人声,完整保留原声的口音、语调、节奏及说话习惯,效果逼真。
AI驱动的隐形提词器,适用于Mac和Windows,语音控制,提升演示效果
AI语音生成器,1000+语音效果,142+语言
Alibaba
$8
Input tokens/M
$240
Output tokens/M
52
Context Length
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
$2.4
$12
8
Tencent
32
$3
$9
$1.6
$10
$1
4
$0.5
$4
28
$1.5
Xai
$21
$105
Openai
$3.5
$10.5
16
Baidu
Apel-sin
基于TIES合并方法融合的俄语语音识别模型,优化电话语音识别效果
facebook
Facebook开发的Wav2Vec2大模型,基于960小时Libri-Light和Librispeech语音数据预训练和微调,采用自训练目标,在LibriSpeech测试集上达到SOTA效果。
DrishtiSharma
这是一个基于facebook/wav2vec2-xls-r-300m模型在斯洛文尼亚语(Common Voice 8.0)数据集上微调的自动语音识别(ASR)模型,结合语言模型(LM)提升了识别效果。