腾讯AI应用“元宝”PC端新增“录音笔”功能,强化办公场景生产力。此次更新实现了移动端与桌面端的协同闭环,用户可直接在电脑上录音或上传音频文件,无需跨设备传输,提升了音频处理效率。
快手Kling 2.6版本推出语音与动作控制两大功能,实现原生音频生成并提升复杂动作处理精度。语音控制可生成匹配视频的音效、人声和音乐,支持个性化声音定制。
美团LongCat团队开源视频生成模型LongCat-Video-Avatar,推动虚拟人技术发展。该模型在长视频生成领域表现突出,基于LongCat-Video升级,支持音频文本转视频、音频文本图像转视频及视频续写等多任务功能,受到开发者广泛关注。
谷歌宣布与三星等合作,将于2026年推出两款AI眼镜:无屏版和单目显示版,均搭载Gemini模型。无屏版外观如普通眼镜,内置摄像头和音频设备,支持拍照、语音交互及环境识别功能。
Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。
SongGuru AI可借助AI创作歌曲、歌词、音乐,还具备多种音频处理功能。
通过Google AI Studio创建具有原生音频的8秒AI视频,操作直观功能强大
OpenAI的Sora 2 AI,实现物理精确视频生成,有同步音频和客串功能
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Openai
$7.7
$30.8
200
$17.5
Alibaba
-
$15.8
$12.7
64
Baidu
Tencent
$0.7
$1.95
16
$2.4
$12
8
$140
$280
32
Huawei
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
dinhthuan
NeuTTS-Air越南语文本转语音模型是基于260多万条越南语音频样本,从NeuTTS-Air基础模型微调而来的高质量越南语语音合成模型。该模型能够实现自然流畅的越南语语音合成,支持语音克隆功能,并针对生产环境进行了优化。
Ken-Z
本模型是microsoft/speech-t5的微调版本,专门针对拉丁语进行了优化训练。它使用了来自Vox Classica数据集的67小时拉丁语音频数据进行训练,能够实现高质量的拉丁语文本转语音功能。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
MALIBA-AI
为班巴拉语提供神经文本转语音合成功能,支持10位地道的班巴拉语发音人,生成高保真音频。
aisak-ai
一个用于音频分类任务的模型,具体功能和性能未明确说明。
sail-rvc
这是一个RVC(Retrieval-based Voice Conversion)模型,用于音频转音频任务,能够实现声音转换功能。
or4cl3ai
SoundSlayerAI是一个专注于音乐相关任务的创新项目,旨在为音频分析和处理提供多种功能,使处理音乐数据集变得更加容易。
abletobetable
基于AST架构微调的俄语情感分析模型,支持音频频谱输入并包含数据增强功能
一个基于MCP协议的抖音视频处理服务器,支持无水印视频下载、音频提取和文本转换功能。
一个生产就绪的MCP服务器,通过Strudel.cc实现AI驱动的音乐生成,提供完整的浏览器自动化控制、实时音频分析和模式生成功能
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
该项目实现了一个通过命名管道与Audacity音频编辑器交互的MCP服务器,提供远程控制功能(如录制、播放等),支持uv工具运行和Claude桌面客户端集成。
yt-dlp-mcp是一个集成yt-dlp的MCP服务器实现,为LLMs提供视频和音频内容下载功能,支持多种平台如YouTube、Facebook、TikTok等。
一个为AI助手提供音频输入输出功能的MCP服务器
一个基于OpenAI API的音频转文字MCP服务器,提供音频转录功能并支持多种配置选项。
一个基于Rime API的文本转语音MCP服务器,提供系统音频播放功能。
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
一个强大的视频编辑MCP服务器,提供视频和音频的全面编辑功能,支持操作链式处理和无缝集成到MCP客户端。
Rime MCP是一个基于Rime API的文本转语音服务,通过系统原生音频播放器实现语音合成与播放功能。
REAPER MCP Server是一个全面的模型上下文协议服务器,使AI代理能够在REAPER中创建完全混音和母带处理的音轨,支持MIDI和音频功能。
一个提供音频输入/输出功能的MCP服务器,支持AI助手如Claude与电脑音频系统交互,包括录音、播放音频文件等功能。
基于MCP协议的文本转语音服务器项目,通过Groq API实现语音合成功能,支持多种音频格式输出。
一个基于Node.js和FFmpeg的视频处理服务器,提供视频转码和音频提取功能
VOICEVOX语音合成的MCP服务器,提供队列管理和预加载功能,支持文本转语音和音频文件生成。
一个为macOS提供全面音频播放功能的MCP服务器,支持系统声音、文本转语音和自定义音频文件播放,适用于AI助手等MCP客户端。