蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0,在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异,部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力,支持在同一条音轨中生成语音、音效和音乐,用户通过自然语言指令即可调整音色、语速等参数。
英伟达发布PersonaPlex-7B-v1语音对话模型,突破传统AI语音助手“一问一答”模式,实现更自然的真人对话体验。该模型采用单一Transformer架构,直接完成语音理解与生成,无需传统ASR、LLM、TTS串联处理。
公司发布新一代开源医疗大模型MedGemma 1.5及临床语音识别模型MedASR,强化医疗技术布局。MedGemma 1.5基于Gemma系列,重点提升医学影像理解能力,可处理文本病历、检验报告、医学文献及X光、CT等影像数据,辅助初步筛查与诊断。
亚马逊推出AI可穿戴设备Bee,操作简便,一键录音。用户可通过应用自定义按钮功能,如双击标记对话片段、处理对话或同时操作,长按可留语音备忘录或与AI助手对话。Bee具备监听、录音和转写功能,独特之处在于其便捷的交互设计。
专为Mac用户打造的转录应用,支持多种文件,准确快速,可本地或云端处理。
一体化AI创意平台,集视频、图像、音乐、语音合成等功能于一体。
Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。
AI语音克隆视频生成平台,可利用名人内容制作吸睛视频。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$7
$35
200
$21
$105
Alibaba
$8
$240
52
$2
256
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
128
Baidu
32
Tencent
$1
$4
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
nineninesix
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
malaysia-ai
X-Codec-2.0-25TPS-24k是基于HKUSTAudio/xcodec2改进的语音编解码模型,将每秒处理事务数从50降低到25,同时将输出采样率提升至24kHz,在保持语音质量的同时优化了处理效率。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
RedHatAI
Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本,针对语音转录、翻译和音频理解进行了优化,采用 FP8 数据类型量化。该模型具有强大的音频理解能力,能处理多种与音频相关的任务。
wcy1122
MGM-Omni-7B是一款全模态聊天机器人,能够处理文本、图像、视频和语音输入,并生成文本和语音响应。它具备长语音理解和生成能力,还支持中英文的零样本语音克隆。
tiantiaf
基于Whisper-small的英语方言分类模型,能够准确识别16种不同的英语方言,为语音处理和语言研究提供支持。
kyutai
京都台文本转语音(TTS)模型是一款用于流式文本转语音的模型,支持实时语音生成和多语言处理。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够处理语音和文本输入。
ggml-org
Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型,专注于高效处理语音转写任务。
TEN-framework
TEN VAD 是一个低延迟、轻量级、高性能的流式语音活动检测系统,适用于实时语音处理场景。
轻量级多语言语音活动检测模型,支持中英法德俄西六种语言,参数量仅91.5K,适用于实时语音处理场景
inclusionAI
轻量级统一多模态模型,高效处理图像、文本、音频和视频等多种模态数据,在语音和图像生成方面表现出色。
ibm-granite
专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型,采用双阶段设计处理音频和文本
mlx-community
这是一个基于MLX格式转换的德语文本转语音模型,支持德语语言处理任务。
这是OpenAI whisper-large-v3模型的FP8量化版本,使用FP8数据类型对模型权重和激活进行量化,可通过vLLM高效推理,专门用于语音识别任务,能够处理音频输入并输出文本内容。
这是OpenAI whisper-large-v3模型的量化版本,通过将权重量化为INT4数据类型,有效提升了推理效率。该模型专门用于语音识别任务,支持多语言语音转文本功能,适用于需要高效语音处理的场景。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于Twilio API的MCP服务器,用于在语音通话中安全处理支付流程,支持异步回调和引导式工作流。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
基于Faster Whisper的高性能语音识别MCP服务器,提供高效的音频转写能力,支持批量处理、多模型尺寸和多种输出格式。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
Votars MCP是一个支持多语言实现的工具,用于与Votars AI平台集成,处理语音转录和AI任务。
一个为Google Dialogflow CX设计的MCP服务器实现,提供AI助手与Dialogflow CX之间的无缝集成。
基于MCP协议的智能宠物伴侣应用,通过语音识别和自然语言处理实现与虚拟宠物的互动,支持多平台运行。
Groq MCP Server是一个通过Model Context Protocol(MCP)提供快速模型推理的服务,支持文本生成、语音转换、图像分析和批量处理等多种功能。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具,支持图像生成、语音处理、视觉模型等多种AI功能,与Claude Desktop无缝集成。
一个基于Twilio API的MCP服务器,用于在语音通话中处理安全支付,支持异步回调和引导式工作流。
MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术,支持持久化说话人识别(一次注册,永久识别)、双检测器情感分析(结合通用AI与个性化声纹)、实时流处理、REST API和MCP服务器,专为AI智能体集成和爱好项目设计。