最好的语音识别大模型 AI工具模型_精选语音识别大模型资讯

AI资讯

阿里通义推出 Qwen3-ASR-Toolkit，实现音视频转录新突破

阿里通义Qwen团队推出开源Python命令行工具Qwen3-ASR-Toolkit，支持便捷音视频转录。该工具突破Qwen3-ASR-Flash API的三分钟限制，实现小时级快速转录，为大规模音频处理提供有力支持。Qwen3-ASR-Flash是最新语音识别模型，基于海量多模态数据训练。

11.1k 3 天前

阿里巴巴推出革命性语音识别模型FunAudio-ASR，降噪效果惊人

近日，阿里巴巴通义实验室正式发布了其最新的端到端语音识别大模型 ——FunAudio-ASR。这个模型的最大亮点在于它的创新 “Context 模块”，让高噪声环境下的语音识别准确率得到了显著提升，幻觉率从78.5% 大幅降低至10.7%，降幅近乎70%。这一技术突破为语音识别行业树立了新的标杆，尤其适用于嘈杂的场合，如会议、公共场所等。FunAudio-ASR 模型在训练过程中使用了数千万小时的音频数据，并将大语言模型的语义理解能力融入其中，使其在远场、嘈杂和多说话人等复杂条件下的表现，已经超

14.7k 1 天前

逻辑智能发布全球首个开源语音大模型框架 LLaSO

在人工智能的快速发展浪潮中，北京深度逻辑智能科技有限公司于近日推出了一项令人瞩目的创新 ——LLaSO。这一开创性的研究框架被称为全球首个完全开放、端到端的语音语言模型，标志着语音识别和处理技术的新高度。LLaSO 框架的最大亮点在于它的开放性。开发者们可以自由访问、修改和使用这个框架，促进了语音技术的广泛应用和研究。通过 LLaSO，开发者不仅能够轻松构建自己的语音模型，还可以在此基础上进行进一步的优化与创新。这一举措不仅降低了技术门槛，还大大提升了语

8.7k 20 小时前

OpenAI Evals新增原生音频输入和评估功能

近日，OpenAI 的 Evals 工具迎来了令人振奋的重大更新，新增了原生音频输入和评估功能。这一创新意味着开发者们在测试和优化语音识别与生成模型时，可以直接使用音频文件进行评估，而无需经过繁琐的文本转录过程。这一变化极大地简化了评估流程，使得音频应用的开发变得更加高效。在以往的评估过程中，开发者们往往需要先将音频内容转化为文本，这不仅费时费力，还可能影响评估结果的准确性。而现在，通过 Evals 的新功能，用户只需简单地上传音频文件，便可以在平台上直接进

7.7k 4 天前

AI产品

Spark-TTS

Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

文本转声音

19k

podscript

一个用于生成播客及其他音频文件转录文本的工具，支持多种语言模型和语音识别API。

语音转文本

10.7k

CosyVoice 2

可扩展的流媒体语音合成技术，结合大型语言模型。

语音克隆

11.7k

OuteTTS-0.1-350M

一款通过纯语言模型实现的文本到语音合成模型

文本转声音

10.7k

模型

Ming Flash Omni Preview

inclusionAI

Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合（MoE）架构构建的多模态大模型，总参数达100B，每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级，在多模态理解和生成方面有显著提升，特别是在语音识别、图像生成和分割编辑方面表现突出。

Borealis

Vikhrmodels

Borealis 是首款面向俄语的自动语音识别（ASR）音频大语言模型，经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号，架构受Voxtral启发但有所改进，在多个俄语ASR基准测试中表现优异。

AI资讯

阿里通义推出 Qwen3-ASR-Toolkit，实现音视频转录新突破

阿里巴巴推出革命性语音识别模型FunAudio-ASR，降噪效果惊人

逻辑智能发布全球首个开源语音大模型框架 LLaSO

OpenAI Evals新增原生音频输入和评估功能

AI产品

Spark-TTS

podscript

CosyVoice 2

OuteTTS-0.1-350M

模型

Ming Flash Omni Preview

Borealis

Parakeet Tdt 0.6b V2 MLX

Ultravox V0_6 Llama 3_1 8b

Whisper Large V3 Turbo

Parakeet Tdt 0.6b V2

Quantum_STT

Distil Large V3.5 Ct2

Whisper Large V3 Turbo

Asr Conformer Loquacious

Chunkformer Ctc Large Vie

Chunkformer Large Vie

Stt_pt_fastconformer_hybrid_large_pc

Japanese Wav2vec2 Large Rs35kh

Stt_uz_fastconformer_hybrid_large_pc

Whisper Large V3 Turbo

Parakeet Tdt_ctc 110m

Japanese Wav2vec2 Base Rs35kh

Whisper Base.en

Parakeet Tdt_ctc 1.1b