腾讯推视频生成模型VideoCrafter2 克服数据限制,提高视频质量

本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
Google于近日宣布,旗下Gemini2.0Flash图像生成功能迎来重要升级,用户现可通过Google AI Studio体验最新模型:gemini-2.0-flash-preview-image-generation。据介绍,本次升级带来三大核心改进:更高的视觉质量,相较于早期实验版本整体图像表现更自然、细节更丰富;文字渲染更精准,解决了AI生成图像中文字扭曲、不清晰等问题;内容安全机制优化,减少了不必要的生成内容拦截,提高生成效率与可用性。此次更新体现了Google持续推动Gemini模型在多模态生成能力上的突破,也为AI创作者提供了更实用、更精确的
Character.AI 近日宣布推出全新视频生成模型 AvatarFX,这一突破性技术能够将静态图片转化为具有真实感的可说话视频角色,赋予图像中的人物动态表情、唇部同步以及自然肢体动作。AvatarFX 的核心是其最先进的基于扩散模型的动态生成技术。该技术依托经过精心筛选的数据集进行训练,融合了创新的音频条件化、蒸馏和推理策略,使得用户能够以极高的速度生成高保真、时间一致性强的视频。无论是长序列的叙事,还是多个角色之间的对话,AvatarFX 都能够完美应对,带来令人惊艳的视觉体验
2025 年 4 月 21 日,Sand AI 发布开源视频生成模型 MAGI-1,以其创新的自回归扩散架构和卓越性能,迅速成为生成式 AI 领域的焦点。该模型采用 Apache 2.0 许可,代码、权重和推理工具已在 GitHub 和 Hugging Face 开放,为全球开发者提供强大创作工具。MAGI-1 基于扩散变换器架构,引入块因果注意力、并行注意力块、Sandwich 规范化等技术创新,通过分块生成(每块 24 帧)实现高效视频生成。其独特流水线设计支持并行处理,最多可同时生成四个块,大幅提升效率。模型通过快捷蒸馏技术,支持灵活的
2025年4月,视频生成技术公司Moonvalley宣布成功完成4300万美元的B轮融资,此轮融资由11位未具名投资者参与,使得该公司总融资额达到1.13亿美元。这笔资金将进一步推动Moonvalley在AI视频生成领域的技术创新和市场扩展。就在披露融资信息的10天前,Moonvalley推出了旗下首款视频生成模型Marey。这款模型由Moonvalley与动画工作室Asteria合作研发,专为精细控制镜头和物体运动设计。Marey的创新之处在于其能够生成最多30秒的高质量视频,并能够精确模拟如国际象棋棋子移动或微风吹拂头发的细节动作
在人工智能领域不断创新的谷歌,近日宣布了一项激动人心的计划。谷歌 DeepMind 的首席执行官 Demis Hassabis 在播客节目 Possible 中透露,公司将把其 Gemini AI 模型与 Veo 视频生成模型进行整合。这一举措旨在提升 Gemini 对物理世界的理解能力,助力开发出一个真正能够在现实生活中为用户提供帮助的通用数字助手。Hassabis 指出,从一开始,Gemini 模型就被设计为一个多模态系统,能够处理多种类型的数据和信息。他表示:“我们的愿景是构建一个能够整合各种媒体形式的助手,这样它才能更好地
亚马逊近日对其 AI 视频生成模型 Nova Reel 进行了升级,推出了 Nova Reel1.1版本。这个新版本不仅能够生成长达两分钟的视频片段,还可以制作多镜头视频,使得各个镜头之间的风格保持一致。Nova Reel 于2024年12月首次发布,是亚马逊在生成视频领域的重要尝试。据 AWS 开发倡导者 Elizabeth Fuentes 在一篇博文中透露,用户可以通过提供最长4,000个字符的提示,生成由六秒镜头组成的长视频。新版的 Nova Reel 还引入了一种名为 “Multishot Manual” 的新模式。在这种模式下,用户可以提供图像和文本提
备受瞩目的 AI 研究公司 Runway 近日隆重推出其下一代人工智能模型系列—— Runway Gen-4。本次发布的 Gen-4模型专注于媒体生成和世界一致性,旨在为用户带来前所未有的创作自由和控制力。其中,最引人瞩目的功能便是其能够精确地生成并保持角色、场景和物体在不同镜头中的高度一致性。告别“换脸”烦恼:角色一致性轻松实现以往的 AI 视频生成模型常常面临角色在不同场景中形象不统一的问题,这给叙事创作带来了诸多挑战。Runway Gen-4革命性地解决了这一痛点。用户只需提供单个角色参
你是不是已经看惯了那些由AI生成的,虽然逼真但总感觉少了点“味道”的短视频?现在,一项名为长上下文调整 (Long Context Tuning, LCT) 的创新技术横空出世,它让AI视频生成模型拥有了执导多镜头叙事视频的能力,如同电影和电视剧那样,在不同镜头之间自由切换,构建出更连贯、更引人入胜的故事场景。过去,顶尖的AI视频生成模型,比如SoRA,Kling,Gen3,已经能够创造出长达一分钟的逼真单镜头视频。但这与真实世界中,由多个镜头组成的叙事视频(比如电影中的一个场景)的需求之
听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。现在,潞晨科技宣布开源视频生成模型 Open-Sora2.0!仅仅花费了区区20万美元(相当于224张 GPU 的投入),就成功训练出了一个拥有 110亿参数的商业级视频生成大模型。性能直追“OpenAI Sora ”别看 Open-Sora2.0成本不高,实力可一点都不含糊。它可是敢于叫板行业标杆 HunyuanVideo 和拥有300亿参数的 Step-Video 的狠角色。在权威评测 VBench 和用户偏好测试中,Open-Sora2.0的表现都令人刮目相看,多项关键指
是否还在感叹视频制作门槛高,后期编辑太烧脑?别担心,阿里通义Wan团队再次出手,推出了他们最新的重量级模型All-in-One视频生成和编辑模型——VACE。VACE最引人注目的能力之一,便是其强大的按条件生成视频功能。这意味着,你只需要用文字描绘出心中的场景,VACE就能迅速将你的想象变为现实。这如同拥有了一支听你指挥的梦幻摄制组,效率之高令人惊叹!VACE支持多种灵活高效的编辑方式,包括:物体运动轨迹任你掌控。借助 Move-Anything 功能,你可以精确控制视频中任何物体的运动轨迹