Best 语音处理 AI Tools & Models - Premium 语音处理 News

AI News

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

11.5k 1 minutes ago

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

英伟达发布 PersonaPlex-7B-v1:重塑实时语音交互的“全双工”黑科技

英伟达发布PersonaPlex-7B-v1语音对话模型，突破传统AI语音助手“一问一答”模式，实现更自然的真人对话体验。该模型采用单一Transformer架构，直接完成语音理解与生成，无需传统ASR、LLM、TTS串联处理。

25k 20 hours ago

英伟达发布 PersonaPlex-7B-v1:重塑实时语音交互的“全双工”黑科技

谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力，同步推出语音转写模型MedASR

公司发布新一代开源医疗大模型MedGemma 1.5及临床语音识别模型MedASR，强化医疗技术布局。MedGemma 1.5基于Gemma系列，重点提升医学影像理解能力，可处理文本病历、检验报告、医学文献及X光、CT等影像数据，辅助初步筛查与诊断。

12.1k 3 days ago

谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力，同步推出语音转写模型MedASR

亚马逊推出 AI 可穿戴设备 Bee，助你记录生活点滴

亚马逊推出AI可穿戴设备Bee，操作简便，一键录音。用户可通过应用自定义按钮功能，如双击标记对话片段、处理对话或同时操作，长按可留语音备忘录或与AI助手对话。Bee具备监听、录音和转写功能，独特之处在于其便捷的交互设计。

13k 1 hours ago

亚马逊推出 AI 可穿戴设备 Bee，助你记录生活点滴

AI Products

Whisper Snapper for Mac

Whisper Snapper for Mac

专为Mac用户打造的转录应用，支持多种文件，准确快速，可本地或云端处理。

语音转文本

Artta AI

Artta AI

一体化AI创意平台，集视频、图像、音乐、语音合成等功能于一体。

Levelr

Levelr

Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。

Fanfun AI

Fanfun AI

AI语音克隆视频生成平台，可利用名人内容制作吸睛视频。

Models

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

Input tokens/M

$11.2

Output tokens/M

1k

Context Length

Gemini 2.0 Flash-Lite

Google

Gemini 2.0 Flash-Lite

$0.49

Input tokens/M

$2.1

Output tokens/M

1k

Context Length

Grok 4 Fast

Xai

Grok 4 Fast

$1.4

Input tokens/M

$3.5

Output tokens/M

2k

Context Length

GPT-5 Codex

Openai

GPT-5 Codex

-

Input tokens/M

-

Output tokens/M

-

Context Length

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

Input tokens/M

$35

Output tokens/M

200

Context Length

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

Claude 3 Sonnet

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

qwen3-livetranslate-flaltimeash-re-2025-09-22

$8

Input tokens/M

$240

Output tokens/M

52

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Qwen3-Next-80B-A3B-Instruct

$2

Input tokens/M

-

Output tokens/M

256

Context Length

qwen3-omni-flash-realtime

Alibaba

qwen3-omni-flash-realtime

$3.9

Input tokens/M

$15.2

Output tokens/M

64

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

qwen3-omni-30b-a3b-captioner

$15.8

Input tokens/M

$12.7

Output tokens/M

64

Context Length

qwen3-tts-flash-realtime

Alibaba

qwen3-tts-flash-realtime

-

Input tokens/M

-

Output tokens/M

-

Context Length

qwen3-tts-flash

Alibaba

qwen3-tts-flash

-

Input tokens/M

-

Output tokens/M

-

Context Length

Doubao-1.5-pro-32k

Bytedance

Doubao-1.5-pro-32k

$0.8

Input tokens/M

$2

Output tokens/M

128

Context Length

qwen-vl-plus

Alibaba

qwen-vl-plus

$0.8

Input tokens/M

$2

Output tokens/M

128

Context Length

qwen3-asr-flash

Alibaba

qwen3-asr-flash

-

Input tokens/M

-

Output tokens/M

-

Context Length

Qianfan-VL-8B

Baidu

Qianfan-VL-8B

-

Input tokens/M

-

Output tokens/M

32

Context Length

Qianfan-VL-70B

Baidu

Qianfan-VL-70B

-

Input tokens/M

-

Output tokens/M

32

Context Length

Hunyuan-T1-20250822

Tencent

Hunyuan-T1-20250822

$1

Input tokens/M

$4

Output tokens/M

32

Context Length

qwen-mt-image

Alibaba

qwen-mt-image

-

Input tokens/M

-

Output tokens/M

-

Context Length

MCP

elevenlabs-mcp

Elevenlabs Mcp

ElevenLabs官方MCP服务器，提供文本转语音和音频处理API交互能力

mcp-hfspace

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

twilio-agent-payments-mcp-server

Twilio Agent Payments Mcp Server

一个基于Twilio API的MCP服务器，用于在语音通话中安全处理支付流程，支持异步回调和引导式工作流。

chatty-mcp

Chatty Mcp

Chatty MCP是一款为编辑器设计的语音交互插件，能在完成AI请求后通过语音总结操作内容，提升多任务处理效率，支持自定义语音引擎。

Fast-Whisper-MCP-Server

Fast Whisper MCP Server

基于Faster Whisper的高性能语音识别MCP服务器，提供高效的音频转写能力，支持批量处理、多模型尺寸和多种输出格式。

mcp-lwh

Mcp Lwh

MCP服务工具集合，提供Hugging Face和Dify的AI服务API调用功能，支持多种NLP、CV和语音处理任务。

Votars

Votars

Votars MCP是一个支持多语言实现的工具，用于与Votars AI平台集成，处理语音转录和AI任务。

mcp-server-conversation-agents

Mcp Server Conversation Agents

一个为Google Dialogflow CX设计的MCP服务器实现，提供AI助手与Dialogflow CX之间的无缝集成。

smart-pet-with-mcp

Smart Pet With Mcp

基于MCP协议的智能宠物伴侣应用，通过语音识别和自然语言处理实现与虚拟宠物的互动，支持多平台运行。

groq-mcp-server

Groq Mcp Server

Groq MCP Server是一个通过Model Context Protocol（MCP）提供快速模型推理的服务，支持文本生成、语音转换、图像分析和批量处理等多种功能。

-1lc

1lc

基于大模型的智能对话机器人项目，支持多平台接入和多种AI模型，具备文本、语音、图像处理及插件扩展能力，可定制企业AI应用。

mcp-server-whisper

Mcp Server Whisper

MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器，提供高级音频转录、格式转换、批量处理和文本转语音等功能，通过Model Context Protocol标准实现与AI助手的无缝交互。

Hugging Face Spaces

Hugging Face Spaces

MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具，支持图像生成、语音处理、视觉模型等多种AI功能，与Claude Desktop无缝集成。

deshartman_twilio-agent-payments-mcp-server

Deshartman_twilio Agent Payments Mcp Server

一个基于Twilio API的MCP服务器，用于在语音通话中处理安全支付，支持异步回调和引导式工作流。

mcp-speaker-diarization

Mcp Speaker Diarization

MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术，支持持久化说话人识别（一次注册，永久识别）、双检测器情感分析（结合通用AI与个性化声纹）、实时流处理、REST API和MCP服务器，专为AI智能体集成和爱好项目设计。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

Business Cooperation Site Map