最好的ASR AI工具模型_精选ASR资讯 - AIBase

AI资讯

阿里语音大模型霸榜国际权威榜单，夺得国产语音 AI“三冠王”

2026年5月28日，全球AI评测平台Artificial Analysis发布语音排行榜，阿里巴巴的Fun-Realtime-TTS-Preview语音大模型以1190分获全球第五、国产第一。该模型在ASR等三大核心语音赛道均居国内榜首，展现全面领先实力。

16.4k 11 小时前

阿里语音大模型霸榜国际权威榜单，夺得国产语音 AI“三冠王”

小米发布全链路语音大模型 MiMo-V2.5，TTS 可“一句话生成新音色”，ASR 开源支持方言与多语混说

小米发布MiMo-V2.5全链路语音模型系列，包括三款TTS模型和一款开源ASR模型，覆盖语音输入与输出。TTS模型能精准调度情绪、语气和角色身份，让声音可编程、可创作、可复刻，提升人机交互自然度，开启语音智能新纪元。

21.9k 3 小时前

小米发布全链路语音大模型 MiMo-V2.5，TTS 可“一句话生成新音色”，ASR 开源支持方言与多语混说

小米 MiMo-V2.5震撼公测:4.3小时手搓编译器，长程智能体迎“满分”跨越

小米发布MiMo-V2.5系列大模型，包含MiMo-V2.5、V2.5-Pro及配套TTS与ASR模型，标志着模型从“能用”到“好用”的升级。其中旗舰型号MiMo-V2.5-Pro在通用智能体能力和软件工程方面已能与Claude Opus4.6、GPT-5.4等顶尖模型竞争，核心优势在于高指令遵循度和自我修正能力。

小米 MiMo-V2.5震撼公测:4.3小时手搓编译器，长程智能体迎“满分”跨越

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

微软开源VibeVoice语音AI模型，支持ASR和TTS，具备长音频处理、多说话人对话生成及实时低延迟特性，已在GitHub获27K星。采用MIT协议，支持本地部署，无需云端费用，旨在推动语音合成领域创新。

22k 16 小时前

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

AI产品

Seed Audio

Seed Audio

Seed Audio AI 含 TTS、ASR 等，通过 API 为创作者和开发者生成音频

Hathora

Hathora

提供语音AI的ASR、TTS和LLM模型，可测试部署用于实时应用。

Nexa SDK

Nexa SDK

Nexa SDK可在数分钟内将AI模型部署到任何设备上，快速、私密且适用于多场景。

模型训练与部署

PengChengStarling

PengChengStarling

PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别（ASR）模型开发工具包。

模型

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

qwen3-asr-flash

Alibaba

qwen3-asr-flash

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

GLM-4.5-Air

Chatglm

GLM-4.5-Air

-

输入tokens/百万

-

输出tokens/百万

128

上下文长度

GLM-Z1-Air

Chatglm

GLM-Z1-Air

-

输入tokens/百万

-

输出tokens/百万

128

上下文长度

MCP

asr_mcp_server

Asr_mcp_server

ASR MCP服务器是一个基于whisper引擎的自动语音识别服务，通过MCP工具提供语音合成功能，便于应用集成。

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商务合作网站地图