腾讯AI应用“元宝”PC端新增“录音笔”功能,强化办公场景生产力。此次更新实现了移动端与桌面端的协同闭环,用户可直接在电脑上录音或上传音频文件,无需跨设备传输,提升了音频处理效率。
Mistral AI推出Voxtral系列模型,整合文本与音频处理能力。该系列包括Voxtral-Mini-3B-2507和Voxtral-Small-24B-2507两款。前者为3亿参数模型,适合快速音频转录和基础多模态理解;后者拥有240亿参数,支持复杂音频文本智能和多语言处理,适用于企业级应用。两款模型均支持30至40分钟音频上下文处理。
快手Kling 2.6版本推出语音与动作控制两大功能,实现原生音频生成并提升复杂动作处理精度。语音控制可生成匹配视频的音效、人声和音乐,支持个性化声音定制。
谷歌升级Gemini2.5Flash音频模型,实现AI拟人化实时交流。新模型能直接处理声音中的语调、情感和停顿,无需先转文字,使对话更自然流畅。
Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。
专业AI音频处理工具,可检测水印、去除杂音、增强空间音频等。
SongGuru AI可借助AI创作歌曲、歌词、音乐,还具备多种音频处理功能。
免费的AI语音清洁器,一键去除音视频背景噪音,实现演播室级音质。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$7
$35
200
$17.5
$21
$105
Alibaba
$2
256
$3.9
$15.2
64
$15.8
$12.7
$0.8
128
Baidu
32
Tencent
$1
$4
Bytedance
$8
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、视觉和音频多模态处理,通过llama.cpp实现高效推理。该版本在保证质量的前提下显著减小文件大小,提升推理速度。
nineninesix
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
RedHatAI
Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本,针对语音转录、翻译和音频理解进行了优化,采用 FP8 数据类型量化。该模型具有强大的音频理解能力,能处理多种与音频相关的任务。
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
TencentARC
ARC-Hunyuan-Video-7B 是腾讯ARC实验室开发的多模态模型,专门用于理解现实世界中的短视频内容。它能够端到端处理视觉、音频和文本信号,通过整合多模态线索实现对视频的深度结构化理解。
Mungert
Qwen2.5-Omni-3B GGUF是一个多功能的多模态模型,能够处理文本、图像、音频和视频等多种数据,提供高效准确的信息处理和响应。
fixie-ai
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
ggml-org
Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型,专注于高效处理语音转写任务。
inclusionAI
轻量级统一多模态模型,高效处理图像、文本、音频和视频等多种模态数据,在语音和图像生成方面表现出色。
moonshotai
金鸣音频是一个在音频理解、生成与对话方面表现卓越的开源音频基础模型,支持多种音频处理任务。
pyannote
Community-1 是一个先进的说话人分割模型,能够自动识别和分割音频中的不同说话人。该模型支持16kHz单声道音频处理,可自动处理立体声或多声道音频的降混和不同采样率的重采样。
FriendliAI
基于Llama-3.1-8B-Instruct的多语言音频文本转文本模型,支持40多种语言处理
ibm-granite
专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型,采用双阶段设计处理音频和文本
it-just-works
这是一个基于幂集编码的说话人分割模型,能够处理10秒音频片段并识别多个说话人及其重叠情况。
HKUSTAudio
AudioX是一个统一的扩散变压器模型,可实现任意内容到音频及音乐的生成。它能生成高质量通用音频与音乐作品,提供灵活的自然语言控制,并能无缝处理多种模态输入。
这是OpenAI whisper-large-v3模型的FP8量化版本,使用FP8数据类型对模型权重和激活进行量化,可通过vLLM高效推理,专门用于语音识别任务,能够处理音频输入并输出文本内容。
lym0302
VideoLLaMA2.1-7B-AV是一款多模态大语言模型,专注于视听问答任务,能够同时处理视频和音频输入,提供高质量的问答和描述生成能力。
junnei
Gemma-3-MM是基于Gemma-3-4b-it扩展的多模态指令模型,新增语音处理能力,可处理文本、图像和音频输入,生成文本输出。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
一个基于MCP协议的抖音视频处理服务器,支持无水印视频下载、音频提取和文本转换功能。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。
MCP Video Digest是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择。
一个基于Python的BirdNet-Pi集成服务,提供鸟类检测数据检索、统计分析和报告生成功能。
该项目通过Model Context Protocol实现Claude AI与Pure Data的集成,支持通过自然语言动态创建、修改和控制Pure Data音频处理模块。
MCP Video Digest 是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择,具有灵活配置和高效处理能力。
Kokoro文本转语音(TTS)MCP服务器,支持生成MP3文件并可选上传至S3存储
基于Faster Whisper的高性能语音识别MCP服务器,提供高效的音频转写能力,支持批量处理、多模型尺寸和多种输出格式。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个为BirdNet-Pi设计的Python MCP服务器,提供鸟类检测数据管理和分析功能。
一个强大的视频编辑MCP服务器,提供视频和音频的全面编辑功能,支持操作链式处理和无缝集成到MCP客户端。
REAPER MCP Server是一个全面的模型上下文协议服务器,使AI代理能够在REAPER中创建完全混音和母带处理的音轨,支持MIDI和音频功能。
一个基于Node.js和FFmpeg的视频处理服务器,提供视频转码和音频提取功能
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
MCP音频服务器是一个用于音频处理和和弦分析的模型上下文协议服务,提供音频解码、音乐分析(包括节奏、调性和和弦分析)等功能,支持RESTful API和容器化部署。
该项目为Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询服务,支持Docker本地部署。
下载FFmpeg多媒体处理工具
REAPER MCP服务器是一个通过API接口暴露REAPER数字音频工作站功能的项目,采用Lua-Python混合架构,支持文件或套接字通信方式,提供756种工具覆盖音频处理的多个领域。
一个基于Python的BirdNet-Pi集成MCP服务器,提供鸟类检测数据检索、统计分析和报告生成功能。