Best 语音识别 AI Tools & Models - Premium 语音识别 News

AI News

谷歌发布Rambler语音听写功能:基于Gemini模型，集成至Gboard键盘

谷歌在2026年Android Show上推出基于Gemini多语言模型的AI语音听写功能“Rambler”，集成于Gboard键盘中。该功能可自动过滤语气词，并实时理解自然语言更正，如用户中途修改时间或地点时，模型能精准识别并输出正确指令，标志着系统级输入法进入生成式语义理解时代。

14.2k 6 hours ago

三星升级 Bespoke AI 冰箱家庭中心，全面提升智能体验

三星电子为美国市场的Bespoke AI冰箱推出软件更新，无需更换硬件即可升级AI功能。新特性包括与Google Gemini合作的视觉食物识别、升级版Bixby语音控制及个性化小部件。研发副总裁郑承文强调，家电价值应随技术发展持续提升。

12.3k 3 days ago

OpenAI 发布三款实时语音模型，针对推理对话、实时翻译和实时转录

OpenAI推出三款实时语音模型：GPT‑Realtime‑2具备GPT‑5级推理能力，支持复杂请求和自然对话；GPT‑Realtime‑Translate专注实时翻译；GPT‑Realtime‑Whisper侧重语音识别。这些模型为开发者提供不同场景的语音应用解决方案。

20.9k 20 hours ago

阿里通义实验室发布语音识别大模型Fun-ASR1.5 30 种语言、方言古诗都能秒转！

阿里通义实验室发布Fun-ASR1.5语音识别大模型，通过统一架构实现通用性与精准度的平衡。该模型支持全球30种主流语言，并深度适配汉语七大方言及20多种地方口音，在多语言、多方言及复杂语境下表现突出。

16.3k 20 hours ago

AI Products

即答侠

专业AI面试助手，提供实时语音识别、智能回答生成等功能，提升面试成功率。

求职

12.7k

VibeVoice

开源的前沿语音 AI 模型，支持语音识别和文本转语音。

语音识别

5.1k

NeatScribe

快速准确将音频和视频转换为文本，适用于讲座、访谈等

语音转文本

超级椰子 Super Coco

专为 Mac 用户设计的 AI 语音助手，通过语音指令实现润色、翻译及自动化办公。

个人助理

8.7k

Models

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

qwen3-tts-flash-realtime

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-tts-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao - Seedream - 4.0

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao - Seedream - 3.0 - t2i

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao-SeedEdit-3.0-i2i

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

qwen3-asr-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-vl-plus

Alibaba

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Qianfan-VL-8B

Baidu

Input tokens/M

Output tokens/M

Context Length

Qianfan-VL-70B

Baidu

Input tokens/M

Output tokens/M

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Hunyuan-TurboS-latest

Tencent

$0.8

Input tokens/M

Output tokens/M

Context Length

Qwen3-0.6B

Alibaba

$0.3

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-thinking-vision-pro

Bytedance

Input tokens/M

Output tokens/M

128

Context Length

qwen-tts

Alibaba

$1.6

Input tokens/M

$10

Output tokens/M

Context Length

MCP

Douyin Mcp Server

一个基于MCP协议的抖音视频处理服务器，支持无水印视频下载、音频提取和文本转换功能。

python

14.6k

3.0points

Jarvis Mcp

Jarvis MCP是一个基于浏览器的语音对话工具，让用户能通过麦克风与AI助手进行自然语音对话，支持30多种语言识别和远程访问，无需额外安装软件或API密钥。

typescript

8.7k

2.5points

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

python

10.4k

2.5points

Audio Transcriber (OpenAI Whisper)

一个基于OpenAI API的音频转文字MCP服务器，提供音频转录功能并支持多种配置选项。

typescript

9.6k

2.5points

Fast Whisper MCP Server

基于Faster Whisper的高性能语音识别MCP服务器，提供高效的音频转写能力，支持批量处理、多模型尺寸和多种输出格式。

python

14.1k

2.5points

Mcp Audio

mcp-audio是一个符合AIO-2030标准的MCP插件，提供语音转文字功能，支持多种音频格式和API调用方式。

python

2.5points

Speech Interface (Faster Whisper)

Speech MCP 是一个为Goose设计的语音交互扩展，提供实时语音识别、文本转语音和音频可视化功能。

python

8.8k

2.5points

Mcp Video Extraction Plus

该项目扩展了视频语音识别功能，从仅支持本地Whisper模型，新增支持简影和B站剪辑的在线语音识别服务，提供了灵活的多服务选择架构。

python

10.3k

2.5points

Mcp Voice Hooks

为Claude Code提供语音交互模式的MCP服务，支持通过浏览器进行免提的连续双向语音对话，包含语音识别和文本转语音功能。

typescript

10.2k

2.5points

Smart Pet With Mcp

基于MCP协议的智能宠物伴侣应用，通过语音识别和自然语言处理实现与虚拟宠物的互动，支持多平台运行。

javascript

9.5k

2.5points

Dy Xhs Mcp Server

抖音和小红书内容提取MCP服务器，支持从抖音和小红书分享链接提取视频、图片和文本内容，提供无水印视频获取、AI语音识别、文案提取等功能。

python

10.6k

2.0points

Asr_mcp_server

ASR MCP服务器是一个基于whisper引擎的自动语音识别服务，通过MCP工具提供语音合成功能，便于应用集成。

python

10.2k

2.0points

Ten Agent

TEN Agent是一个多功能AI代理框架，集成了实时视觉、语音识别和屏幕共享检测能力，支持快速扩展开发。

python

8.7k

2.0points

Mcp Speaker Diarization

MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术，支持持久化说话人识别（一次注册，永久识别）、双检测器情感分析（结合通用AI与个性化声纹）、实时流处理、REST API和MCP服务器，专为AI智能体集成和爱好项目设计。

python

9.9k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

谷歌发布Rambler语音听写功能:基于Gemini模型，集成至Gboard键盘

三星升级 Bespoke AI 冰箱 家庭中心，全面提升智能体验

​OpenAI 发布三款实时语音模型，针对推理对话、实时翻译和实时转录

阿里通义实验室发布语音识别大模型Fun-ASR1.5 30 种语言、方言古诗都能秒转！

AI Products

即答侠

VibeVoice

NeatScribe

超级椰子 Super Coco

Models

Claude 3 Sonnet

qwen3-vl-plus

qwen3-livetranslate-flaltimeash-re-2025-09-22

qwen3-omni-flash-realtime

qwen3-omni-30b-a3b-captioner

qwen3-tts-flash-realtime

qwen3-tts-flash

Doubao - Seedream - 4.0

Doubao - Seedream - 3.0 - t2i

Doubao-SeedEdit-3.0-i2i

Doubao-1.5-pro-32k

qwen3-asr-flash

qwen-vl-plus

Qianfan-VL-8B

Qianfan-VL-70B

qwen-tts-realtime

Hunyuan-TurboS-latest

Qwen3-0.6B

Doubao-1.5-thinking-vision-pro

qwen-tts

Crisperwhisper Unsloth Mlx 8b

GigaAM V3

Asr 19m V2 En 32b

Whisperv

Whisper Small Swh Finetuned

Everos

MERaLiON SER V1

Whisper Small Serlabs Twi Asr

Ming Flash Omni Preview

Whisper Small Bambara V2 Kis

Latin_whisper Small

Medwhisper Large V3 Ita

Parakeet Ctc 1.1b

Borealis

Whisper Small Ru Cv17

Asr Whisper Helpline Sw V1

SE_DiCoW

Moonshine Tiny Vi

Whisper Large V3 Finetuned For ATC

Parakeet Tdt 0.6b V3 Coreml

MCP

Douyin Mcp Server

Jarvis Mcp

Speech Mcp

Audio Transcriber (OpenAI Whisper)

Fast Whisper MCP Server

Mcp Audio

Speech Interface (Faster Whisper)

Mcp Video Extraction Plus

Mcp Voice Hooks

Smart Pet With Mcp

Dy Xhs Mcp Server

Asr_mcp_server

Ten Agent

Mcp Speaker Diarization

三星升级 Bespoke AI 冰箱家庭中心，全面提升智能体验

OpenAI 发布三款实时语音模型，针对推理对话、实时翻译和实时转录