亚马逊于4月30日推出“Join the chat”AI音频问答功能,由数字“AI购物专家”驱动,将商品详情页的“阅读模式”升级为“对话模式”,让用户通过语音实时获取信息,提升电商交互效率与自然度。
ComfyUI,一家由开源项目发展而来的AI初创公司,于4月24日宣布完成3000万美元融资,估值达5亿美元。本轮由Craft Ventures领投,Pace Capital等跟投。其核心产品是基于节点的工作流平台,通过模块化框架解决主流扩散模型在生成图像、视频、音频时缺乏精确控制的问题,让用户能精细调节生成过程的每一步,与Midjourney等提示词驱动的“老虎机”式工具形成对比。
Speechify发布原生Windows客户端,从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型,支持跨应用实时听写与文档转录,对标Superwhisper等竞品。为保障响应速度与隐私,在Copilot+ PC等高性能设备上支持完全本地化运行,用户无需上传音频至云端,即可利用本地NPU或GPU驱动的Whisper模型。
昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
VeoOmni由谷歌AI驱动,可从文本或图像生成1080p电影级视频并同步音频。
由Google Gemini Omni驱动,可从文本或图像生成带同步音频的1080p视频。
一款由字节跳动推出的 AI 视频生成器,支持多镜头叙事。
AI驱动的视频生成器,可从文本、图像生成2K视频,角色一致、音频同步
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
$17.5
Alibaba
-
$15.8
$12.7
64
Baidu
Bytedance
$3.5
$12
128
$2.4
8
$140
$280
32
$6
$6.4
Openai
$14
$56
200
$1
$70
2.1k
$210
$420
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
jdh-algo
JoyVASA是一种基于扩散模型的音频驱动面部动画生成方法,能够生成面部动态和头部运动,支持多语言输入。
JoyHallo是一个专注于普通话的音频驱动人脸动画生成模型,能够根据普通话语音生成逼真的面部动画。
一个生产就绪的MCP服务器,通过Strudel.cc实现AI驱动的音乐生成,提供完整的浏览器自动化控制、实时音频分析和模式生成功能
Transcribe MCP是一个AI驱动的自动化转录工具,支持快速高质量的多语言音频转文字,提供本地和云端服务,并可与多种AI助手集成。