NVIDIA开源Lyra2.0框架,可从单张图像生成持久一致的大型3D场景,支持实时渲染与机器人仿真,为游戏开发和虚拟环境构建提供新工具。
Skywork AI发布Matrix-Game3.0系统,在720p高清分辨率下实现每秒40帧实时视频生成,并解决了AI视频生成中长期存在的“长效记忆”缺失问题,攻克了空间结构错乱和风格漂移的顽疾。
可灵AI于2026年4月1日推出“会员模型优惠计划”,旨在降低高阶视频创作门槛。活动持续至6月30日,覆盖Web和App端。期间,铂金及以上会员可享视频模型8折灵感值优惠,黄金会员享9折。平台还延长了图片模型优惠。
B站低调内测AI创作产品“updream”,旨在通过生成式AI技术降低视频创作门槛,助力UP主高效完成从创意到素材的全链路开发。此举标志着B站AI战略从后台优化转向前台赋能,通过将AI能力集成到创作端,在短视频与长视频的存量竞争中寻求技术突破。
AI唇同步视频生成器,可将长音频转化为逼真的口型同步视频。
Chunks用AI将长视频转为自动高光片段,生成可分享短片
音频驱动的唇形同步生成器,可将图片转为无限长度生动视频,免费试用。
AI驱动,将长视频转化为高质量病毒式片段,用于多平台分享
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Anthropic
$21
$105
200
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
256
Baidu
Tencent
24
32
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-8B-Instruct是通义系列中最强大的视觉语言模型,具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。