昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
xAI旗下Grok Imagine新增10秒视频生成功能,视频质量显著提升,画面稳定、细节丰富,音频清晰同步。目前生成过程仍较随机,缺乏计时器选项,输出长度和一致性有待优化,但相关功能预计将很快完善。
华为将于2026年上半年推出新一代AI眼镜,在保留音频功能基础上,首次加入高清拍照,并深度整合鸿蒙系统,支持跨设备协同、实时翻译等AI体验。产品延续轻量化设计,内置三块高密度电池以提升续航,标志着华为向全场景智能交互迈出关键一步。
华为计划2026年上半年推出新款AI眼镜,主打轻量化设计,内置三块锂电池,提供流光银、钛银灰和摩登黑三种配色。产品搭载鸿蒙系统,支持跨端协同、同传翻译、拍照及音频功能,探索AI交互新体验。随着智能眼镜被预测为2025年消费电子增长黑马,此举显示华为正深化AI终端布局。
Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。
SongGuru AI可借助AI创作歌曲、歌词、音乐,还具备多种音频处理功能。
通过Google AI Studio创建具有原生音频的8秒AI视频,操作直观功能强大
OpenAI的Sora 2 AI,实现物理精确视频生成,有同步音频和客串功能
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Openai
$7.7
$30.8
200
$17.5
Alibaba
-
$15.8
$12.7
64
Baidu
Tencent
$0.7
$1.95
16
$2.4
$12
8
$140
$280
32
Huawei
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
dinhthuan
NeuTTS-Air越南语文本转语音模型是基于260多万条越南语音频样本,从NeuTTS-Air基础模型微调而来的高质量越南语语音合成模型。该模型能够实现自然流畅的越南语语音合成,支持语音克隆功能,并针对生产环境进行了优化。
Ken-Z
本模型是microsoft/speech-t5的微调版本,专门针对拉丁语进行了优化训练。它使用了来自Vox Classica数据集的67小时拉丁语音频数据进行训练,能够实现高质量的拉丁语文本转语音功能。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
MALIBA-AI
为班巴拉语提供神经文本转语音合成功能,支持10位地道的班巴拉语发音人,生成高保真音频。
aisak-ai
一个用于音频分类任务的模型,具体功能和性能未明确说明。
sail-rvc
这是一个RVC(Retrieval-based Voice Conversion)模型,用于音频转音频任务,能够实现声音转换功能。
or4cl3ai
SoundSlayerAI是一个专注于音乐相关任务的创新项目,旨在为音频分析和处理提供多种功能,使处理音乐数据集变得更加容易。
abletobetable
基于AST架构微调的俄语情感分析模型,支持音频频谱输入并包含数据增强功能
一个基于MCP协议的抖音视频处理服务器,支持无水印视频下载、音频提取和文本转换功能。
一个生产就绪的MCP服务器,通过Strudel.cc实现AI驱动的音乐生成,提供完整的浏览器自动化控制、实时音频分析和模式生成功能
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
yt-dlp-mcp是一个集成yt-dlp的MCP服务器实现,为LLMs提供视频和音频内容下载功能,支持多种平台如YouTube、Facebook、TikTok等。
该项目实现了一个通过命名管道与Audacity音频编辑器交互的MCP服务器,提供远程控制功能(如录制、播放等),支持uv工具运行和Claude桌面客户端集成。
一个基于Rime API的文本转语音MCP服务器,提供系统音频播放功能。
一个基于OpenAI API的音频转文字MCP服务器,提供音频转录功能并支持多种配置选项。
一个为AI助手提供音频输入输出功能的MCP服务器
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
一个强大的视频编辑MCP服务器,提供视频和音频的全面编辑功能,支持操作链式处理和无缝集成到MCP客户端。
Rime MCP是一个基于Rime API的文本转语音服务,通过系统原生音频播放器实现语音合成与播放功能。
一个提供音频输入/输出功能的MCP服务器,支持AI助手如Claude与电脑音频系统交互,包括录音、播放音频文件等功能。
REAPER MCP Server是一个全面的模型上下文协议服务器,使AI代理能够在REAPER中创建完全混音和母带处理的音轨,支持MIDI和音频功能。
基于MCP协议的文本转语音服务器项目,通过Groq API实现语音合成功能,支持多种音频格式输出。
VOICEVOX语音合成的MCP服务器,提供队列管理和预加载功能,支持文本转语音和音频文件生成。
一个基于Node.js和FFmpeg的视频处理服务器,提供视频转码和音频提取功能
一个为macOS提供全面音频播放功能的MCP服务器,支持系统声音、文本转语音和自定义音频文件播放,适用于AI助手等MCP客户端。