Best 语音识别 AI Tools & Models - Premium 语音识别 News

AI News

Google 推出非洲语音数据集 WAXAL，助力非洲夺回 AI 数据主权

Google在非洲推出WAXAL语音数据集，涵盖21种非洲语言，旨在提升AI系统对非洲语言的识别准确率。其核心突破在于将数据所有权归还给非洲本地机构，而非由Google掌控，解决了数据主权问题。

主打极致低延迟！Mistral 推出全新语音转文字 AI 模型

法国AI公司Mistral AI发布两款语音转文字模型Voxtral Mini Transcribe V2和Voxtral Realtime，主打高速转录、隐私保护和性价比。模型具备高精度转录、说话人识别和低延迟特性，适用于虚拟助手、呼叫中心及合规记录等商业场景。

12.8k 14 hours ago

苹果再下一城：收购音频AI领军者Q.ai，全力补齐Siri短板

苹果收购以色列AI音频公司Q.ai，旨在提升iPhone等设备语音助手在复杂环境下的识别能力。Q.ai团队整体并入苹果，其CEO Aviad Maizels已是第二次将公司出售给苹果，此前PrimeSense于2013年被收购。此举强化了苹果在AI语音交互领域的技术布局。

10.6k yesterday

腾讯搜狗输入法发布 20.0 重磅版本全面AI

腾讯搜狗输入法发布20.0.0纪念版，全面AI化升级。依托腾讯混元大模型，重点提升AI语音、翻译和打字功能。AI语音识别延时降低40%，准确率达98%，方言识别准确率提升30%。

11.9k 11 hours ago

AI Products

NeatScribe

快速准确将音频和视频转换为文本，适用于讲座、访谈等

语音转文本

超级椰子 Super Coco

专为 Mac 用户设计的 AI 语音助手，通过语音指令实现润色、翻译及自动化办公。

个人助理

8.4k

Artta AI

一体化AI创意平台，集视频、图像、音乐、语音合成等功能于一体。

AI设计工具

Miaoyan

2025全新发布的AI语音输入法，毫秒响应，精准识别，智能重组语言。

语音识别

6.4k

Models

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

qwen3-tts-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-tts-flash-realtime

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao - Seedream - 4.0

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao - Seedream - 3.0 - t2i

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao-SeedEdit-3.0-i2i

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

qwen-vl-plus

Alibaba

$0.8

Input tokens/M

Output tokens/M

128

Context Length

qwen3-asr-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qianfan-VL-8B

Baidu

Input tokens/M

Output tokens/M

Context Length

Qianfan-VL-70B

Baidu

Input tokens/M

Output tokens/M

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Hunyuan-TurboS-latest

Tencent

$0.8

Input tokens/M

Output tokens/M

Context Length

Qwen3-0.6B

Alibaba

$0.3

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-thinking-vision-pro

Bytedance

Input tokens/M

Output tokens/M

128

Context Length

qwen-tts

Alibaba

$1.6

Input tokens/M

$10

Output tokens/M

Context Length

MCP

Douyin Mcp Server

一个基于MCP协议的抖音视频处理服务器，支持无水印视频下载、音频提取和文本转换功能。

python

13.4k

3.0points

Jarvis Mcp

Jarvis MCP是一个基于浏览器的语音对话工具，让用户能通过麦克风与AI助手进行自然语音对话，支持30多种语言识别和远程访问，无需额外安装软件或API密钥。

typescript

5.7k

2.5points

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

python

9.6k

2.5points

Fast Whisper MCP Server

基于Faster Whisper的高性能语音识别MCP服务器，提供高效的音频转写能力，支持批量处理、多模型尺寸和多种输出格式。

python

11.8k

2.5points

Audio Transcriber (OpenAI Whisper)

一个基于OpenAI API的音频转文字MCP服务器，提供音频转录功能并支持多种配置选项。

typescript

6.3k

2.5points

Mcp Audio

mcp-audio是一个符合AIO-2030标准的MCP插件，提供语音转文字功能，支持多种音频格式和API调用方式。

python

8.9k

2.5points

Speech Interface (Faster Whisper)

Speech MCP 是一个为Goose设计的语音交互扩展，提供实时语音识别、文本转语音和音频可视化功能。

python

6.6k

2.5points

Mcp Video Extraction Plus

该项目扩展了视频语音识别功能，从仅支持本地Whisper模型，新增支持简影和B站剪辑的在线语音识别服务，提供了灵活的多服务选择架构。

python

8.1k

2.5points

Smart Pet With Mcp

基于MCP协议的智能宠物伴侣应用，通过语音识别和自然语言处理实现与虚拟宠物的互动，支持多平台运行。

javascript

9.6k

2.5points

Mcp Voice Hooks

为Claude Code提供语音交互模式的MCP服务，支持通过浏览器进行免提的连续双向语音对话，包含语音识别和文本转语音功能。

typescript

6.5k

2.5points

Asr_mcp_server

ASR MCP服务器是一个基于whisper引擎的自动语音识别服务，通过MCP工具提供语音合成功能，便于应用集成。

python

6.6k

2.0points

Ten Agent

TEN Agent是一个多功能AI代理框架，集成了实时视觉、语音识别和屏幕共享检测能力，支持快速扩展开发。

python

5.4k

2.0points

Mcp Speaker Diarization

MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术，支持持久化说话人识别（一次注册，永久识别）、双检测器情感分析（结合通用AI与个性化声纹）、实时流处理、REST API和MCP服务器，专为AI智能体集成和爱好项目设计。

python

8.2k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

Google 推出非洲语音数据集 WAXAL，助力非洲夺回 AI 数据主权

主打极致低延迟！Mistral 推出全新语音转文字 AI 模型

苹果再下一城：收购音频AI领军者Q.ai，全力补齐Siri短板

​腾讯搜狗输入法发布 20.0 重磅版本全面AI

AI Products

NeatScribe

超级椰子 Super Coco

Artta AI

Miaoyan

Models

Claude 3 Sonnet

qwen3-vl-plus

qwen3-livetranslate-flaltimeash-re-2025-09-22

qwen3-omni-flash-realtime

qwen3-omni-30b-a3b-captioner

qwen3-tts-flash

qwen3-tts-flash-realtime

Doubao - Seedream - 4.0

Doubao - Seedream - 3.0 - t2i

Doubao-SeedEdit-3.0-i2i

Doubao-1.5-pro-32k

qwen-vl-plus

qwen3-asr-flash

Qianfan-VL-8B

Qianfan-VL-70B

qwen-tts-realtime

Hunyuan-TurboS-latest

Qwen3-0.6B

Doubao-1.5-thinking-vision-pro

qwen-tts

Crisperwhisper Unsloth Mlx 8b

GigaAM V3

Asr 19m V2 En 32b

Whisperv

Whisper Small Swh Finetuned

Everos

MERaLiON SER V1

Whisper Small Serlabs Twi Asr

Ming Flash Omni Preview

Whisper Small Bambara V2 Kis

Latin_whisper Small

Medwhisper Large V3 Ita

Parakeet Ctc 1.1b

Borealis

Whisper Small Ru Cv17

Asr Whisper Helpline Sw V1

SE_DiCoW

Moonshine Tiny Vi

Whisper Large V3 Finetuned For ATC

Parakeet Tdt 0.6b V3 Coreml

MCP

Douyin Mcp Server

Jarvis Mcp

Speech Mcp

Fast Whisper MCP Server

Audio Transcriber (OpenAI Whisper)

Mcp Audio

Speech Interface (Faster Whisper)

Mcp Video Extraction Plus

Smart Pet With Mcp

Mcp Voice Hooks

Asr_mcp_server

Ten Agent

Mcp Speaker Diarization

腾讯搜狗输入法发布 20.0 重磅版本全面AI