马斯克旗下xAI公司发布视频生成工具Grok Imagine 1.0,支持生成10秒720p高清视频,音频质量大幅优化,标志着其在多媒体AI生成领域迈出关键一步。
马斯克旗下xAI公司发布Grok Imagine 1.0,实现AI视频生成技术重大突破。该版本支持生成10秒720p高清视频,音频质量显著提升,大幅缩短高质量视频创作时间,标志着AI视频生成领域的重要进展。
Meta提出基于多模态感知的AI面部表情生成技术,通过分析用户身体动作、语音等多维度信息,在虚拟互动中实现自然生动的表情生成,克服了传统方案依赖昂贵硬件或仅同步音频的局限,尤其适用于用户活动复杂、面部遮挡或仅通过身体传达信息的场景。
百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
2026 年领先 AI 生成器,支持原生 4K、音频和 Canvas Agent,创电影级视频。
免费无审查的AI视频工作室,集视频、图像、音频生成于一体
ReelMuse.ai是一体化AI平台,可生成视频、图像和音频等。
一体化AI创作平台,集成20+前沿模型,支持图、文、音创作
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
awsaf49
用于检测端到端AI生成歌曲的先进模型,特别擅长识别长时程伪造音频特征
用于检测端到端AI生成歌曲的先进模型,特别擅长捕捉长时音频特征
Mrkomiljon
基于Wav2Vec2微调的音频分类器,能够区分真人语音和AI生成语音。
facebook
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量音乐样本。
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量立体声音乐样本。
MusicGen是一款由Meta AI开发的文本生成音乐模型,支持立体声生成,能够根据文本描述或音频提示生成高质量音乐样本。
一个生产就绪的MCP服务器,通过Strudel.cc实现AI驱动的音乐生成,提供完整的浏览器自动化控制、实时音频分析和模式生成功能
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Luma AI MCP服务器是一个基于Model Context Protocol的服务,集成了Luma AI的Dream Machine API(v1),提供AI生成视频/图像的工具集,包括文本/图像转视频、视频扩展、音频添加、画质提升等功能,支持通过Claude Desktop直接调用。
一个基于FastAPI和FastMCP的模块化服务器,集成了数学工具、天气API、网页搜索、音频生成及外部API调用功能,支持AI工具调用和资源路由。
基于Minimax AI和Amazon S3的语音生成MCP服务器,提供文本转语音功能并自动上传音频文件到云端存储