ComfyUI,一家由开源项目发展而来的AI初创公司,于4月24日宣布完成3000万美元融资,估值达5亿美元。本轮由Craft Ventures领投,Pace Capital等跟投。其核心产品是基于节点的工作流平台,通过模块化框架解决主流扩散模型在生成图像、视频、音频时缺乏精确控制的问题,让用户能精细调节生成过程的每一步,与Midjourney等提示词驱动的“老虎机”式工具形成对比。
字节跳动与南洋理工大学联合推出开源框架StoryMem,通过创新的“视觉记忆”机制,将单镜头视频扩散模型升级为多镜头长视频生成工具,能自动生成超过1分钟、镜头切换自然、角色场景连贯的叙事视频,推动开源AI视频技术向电影级叙事迈进。
清华大学TSAIL实验室与生数科技联合开源视频生成加速框架TurboDiffusion,将AI视频扩散模型的推理速度提升100至200倍,视觉质量几乎无损。该技术针对现有开源模型进行深度优化,在单张RTX 5090显卡上实现从分钟级到秒级的实时生成,标志着AI视频创作进入新时代。
数字头像生成公司Lemon Slice获1050万美元种子融资,投资方包括Matrix Partners、Y Combinator及The Chainsmokers等。公司致力于为AI聊天机器人添加视频功能,其最新扩散模型Lemon Slice-2仅需一张图片即可生成动态数字头像。该模型拥有200亿参数,可在单个GPU上实现每秒20帧的直播视频,并通过API和可嵌入小工具提供服务。
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
加速视频扩散模型,生成速度提升 8.5 倍。
通过扩散模型实现单目视频的相机轨迹重定向。
On-device Sora 是一个基于扩散模型的移动设备端文本到视频生成项目。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
nvidia
Cosmos-Predict2.5是NVIDIA开发的专为物理AI设计的高性能预训练世界基础模型套件,基于扩散模型技术,能够根据文本、图像或视频输入生成具有物理感知的高质量图像和视频,为自动驾驶、机器人等应用提供世界模拟能力。
Lightricks
基于扩散模型的视频空间分辨率增强工具,专门针对LTX视频模型生成的潜在视频表示进行超分辨率训练
Skywork
SkyReels V2是首个采用自回归扩散强制架构的开源视频生成模型,支持无限长度电影生成,在公开模型中实现了最先进的性能表现。
TaiMingLu
基于稳定视频扩散模型(SVD)构建的视频生成流程,通过关键帧生成时间连贯的视频,用于探索给定场景。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持高质量视频生成。
SkyReels V2是一款无限长度电影生成模型,采用自回归扩散强制架构,支持高分辨率视频生成。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持文生视频和图生视频任务,能够生成高质量的长视频内容。
SkyReels V2 是一个采用自回归扩散强制架构的开源视频生成模型,支持无限长度电影生成,在公开模型中实现了最先进的性能表现。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持720P高清视频生成,在公开模型中达到SOTA性能。
SkyReels V2是首个采用自回归扩散强制架构的开源视频生成模型,支持无限时长电影生成,在公开模型中实现最先进的性能表现。
vfontech
基于扩散模型的视频帧插值工具,支持多输入帧插值并包含不确定性估计
Luo-Yihong
TDM是一种通过轨迹分布匹配技术实现高效少步扩散的模型,可在4步推理内生成高质量视频,相比原始模型实现25倍加速且性能无损。
OPPOer
X2I是一个多模态扩散Transformer模型,能够将多种输入模态(文本、图像、视频、音频、语音)转换为图像输出。
mehmetkeremturkcan
专为生成逼真机器人手术缝合视频而微调的文本生成视频扩散模型,能够捕捉精细的亚缝合动作。
sarthak247
Wan2.1-T2V-1.3B是一个支持文本生成视频的扩散模型,适用于中英文环境,并针对低显存设备进行了量化优化。
EXCAI
一个三维感知的视频扩散模型,支持多样化的视频生成控制
kiwhansong
一种新颖的视频扩散模型,能够根据任意数量的上下文帧生成高质量视频
Yabo
FramePainter 是一个基于视频扩散先验的交互式图像编辑模型,能够实现高质量的视频帧编辑。