Best 开源语音识别模型 AI Tools & Models - Premium 开源语音识别模型 News

AI News

挑战英伟达统治力：Cohere 发布开源轻量化语音模型 Transcribe

Cohere公司于2026年3月26日推出开源语音识别模型Cohere Transcribe。该模型拥有20亿参数，专为边缘设备设计，旨在解决语音模型因体积过大导致的延迟问题。通过Apache 2.0协议开源，Cohere希望借助开发者社区完善生态并实现商业化。模型支持14种语言，性能超越主流。

25.7k 14 hours ago

谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力，同步推出语音转写模型MedASR

公司发布新一代开源医疗大模型MedGemma 1.5及临床语音识别模型MedASR，强化医疗技术布局。MedGemma 1.5基于Gemma系列，重点提升医学影像理解能力，可处理文本病历、检验报告、医学文献及X光、CT等影像数据，辅助初步筛查与诊断。

12.5k 2 days ago

智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放

智谱团队开源四项视频生成核心技术，包括GLM-4.6V视觉理解、AutoGLM设备控制、GLM-ASR语音识别和GLM-TTS语音合成模型，展示其在多模态领域的最新进展，为视频生成技术发展奠定基础。

14k 9 hours ago

智谱 AI 输入法全新发布，语音识别技术同步开源!

智谱AI推出GLM-ASR系列开源语音识别模型，并发布桌面端“智谱AI输入法”，提升PC语音输入体验。其中GLM-ASR-2512云端模型支持实时转写，在复杂环境中表现优异，字符错误率（CER）极低。

18.2k 12 hours ago

AI Products

VibeVoice

开源的前沿语音 AI 模型，支持语音识别和文本转语音。

语音识别

4.7k

FireRedASR-AED-L

开源工业级自动语音识别模型，支持普通话、方言和英语，性能卓越。

语音识别

13.3k

FireRedASR

开源的工业级普通话自动语音识别模型，支持多种应用场景。

语音识别

11.7k

Zonos-v0.1-hybrid

Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型，能够提供高质量的语音合成服务。

文本转声音

11.6k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

挑战英伟达统治力：Cohere 发布开源轻量化语音模型 Transcribe

谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力，同步推出语音转写模型MedASR

智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放

智谱 AI 输入法全新发布，语音识别技术同步开源!

AI Products

VibeVoice

FireRedASR-AED-L

FireRedASR

Zonos-v0.1-hybrid

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

wan2.5-i2i-preview

qwen-image-edit

Open Vakgyata

FireRedASR LLM L

FireRedASR AED L

Reverb Asr

Owsm_v3.1_ebf

Whisper Large V3

Whisper Tiny

AI News

挑战英伟达统治力：Cohere 发布开源轻量化语音模型 Transcribe

谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力，同步推出语音转写模型MedASR

​智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放

智谱 AI 输入法全新发布，语音识别技术同步开源!

AI Products

VibeVoice

FireRedASR-AED-L

FireRedASR

Zonos-v0.1-hybrid

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

wan2.5-i2i-preview

qwen-image-edit

Open Vakgyata

FireRedASR LLM L

FireRedASR AED L

Reverb Asr

Owsm_v3.1_ebf

Whisper Large V3

Whisper Tiny

智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放