字节跳动近日推出了一款名为Phantom的创新视频生成工具,该工具基于参考主体进行视频生成,在主体一致性方面表现出色,引发业界广泛关注。
字节跳动推出Phantom视频生成工具:主体一致性表现卓越

AIbase基地
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
字节跳动近日推出了一款名为Phantom的创新视频生成工具,该工具基于参考主体进行视频生成,在主体一致性方面表现出色,引发业界广泛关注。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布,以其卓越的情感表达能力和逼真的人物表现引发行业热议。AIbase通过整合社交媒体最新动态及公开信息,为您深度解析这一技术突破的亮点与潜力。DICE-Talk的核心创新在于其身份-情感分离处理机制。通过将说话人的身份特征(如面部细节、肤色)与情感表达(表情、语气)解耦,DICE-Talk确保在情感变化时人物外观保持高度一致,避免了传统生成工具中常见的“表情跳变”问题。其协同情感处理技术进一步实现了不同情
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相Wan2.1-VACE开源 号称首个开源的视频编辑统一模型通义万相宣布VACE开源,支持多种分辨率和任务,提供一站式视频创作体验,通过多模态输入机制实现高效灵活的视频编辑。【AiBase提要:】✨ 支持文生视频、图像参考生成、局部编辑与视频扩展等多种任务,提高创作效率。🌟 强大
近日,全球知名的大模型整合应用平台 Poe 发布了2025年春季 AI 模型使用趋势报告。报告显示,在文生视频领域,中国的快手可灵多款视频生成模型迅速崛起,已占据了约30% 的市场份额,领先于 Runway 和谷歌的 Veo2。图源备注:图片由AI生成,图片授权服务商Midjourney特别值得一提的是,可灵2.0模型自今年4月推出以来,仅仅在三周内就取得了21% 的使用比例,展现出其强大的市场吸引力和应用能力。该模型在动态质量、语义响应和画面美学等多个维度上,继续保持全球领先地位。根据数据显示
在最近发布的全球视频生成大模型榜单中,快手旗下的可灵 AI2.0模型以1124分的 Arena ELO 评分一举超越了其前任1.6版本,成功夺得全球冠军。这一消息引发了广泛关注,尤其是在 AI 技术日益崛起的背景下。可灵 AI2.0模型已经连续三个月稳居图生视频领域的顶端,显示出其强大的技术实力和市场潜力。可灵 AI2.0于4月15日在北京正式发布,针对动态质量、语义理解以及画面美学等核心指标进行了全面提升,持续引领行业发展。自从2023年6月上线以来,可灵 AI 的全球用户数已突破2200万,月活跃用
5月14日晚,阿里巴巴正式推出了通义万相 Wan2.1-VACE,这是当前行业中功能最为全面的视频生成与编辑模型。该模型的亮点在于它具备多种强大的能力,可以同时实现文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展和时长延展等多项基础生成和编辑功能。这一开创性的产品标志着视频制作的门槛进一步降低,使更多的创作者能够轻松上手。此次开源的模型分为两个版本,分别为1.3B 和14B,其中1.3B 版本特别设计为能够在消费级显卡上流畅运行,意味着即使是普通用户也能体验到
在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pro 支持图像、视频、音频和代码的统一理解,并在多个基准测试中领先于 GPT-4.0。字节跳动的 Seed 团队表示,尽管 Seed1.5-VL 的激活参数仅为2
字节跳动在Hugging Face平台正式开源了全新图像定制框架DreamO,这一框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能,为AI图像编辑领域带来了全新的技术突破。AIbase编辑部整理了最新信息,深入解析DreamO的核心亮点及其对行业的潜在影响。框架亮点:一站式图像定制解决方案DreamO被设计为一个统一的图像定制框架,支持多样化的编辑任务,并通过灵活的参数设置实现无缝整合。根据官方介绍,DreamO基于DiT(Diffusion Transformer)图像模型,能够高效处理复杂的图像编
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、快手推出 AI 作图工具 Poify,聚焦电商市场快手最近推出了AI作图工具Poify,专注于电商领域的图像处理,旨在提高商家在产品展示方面的效率和经济性。Poify的核心功能包括文生图和图生图,特别适用于电商需求,提供AI模特试衣、背景更换等创新能力,帮助商家降低成本并提升视觉吸引力。【
字节跳动Seed团队正式推出全新开源代码模型Seed-Coder,以其卓越的代码生成、补全、编辑及推理能力引发业界广泛关注。作为一款8B参数规模的模型,Seed-Coder在多个基准测试中超越同级别竞品,展现出强大的编程潜力和高效的数据处理设计。模型概览:8B参数,32K上下文,MIT协议开源Seed-Coder是一个专注于代码生成、编程和软件工程任务的模型系列,包含三个主要变体:Seed-Coder-8B-Base:基于模型为中心的代码数据预训练,奠定坚实基础。Seed-Coder-8B-Instruct:通过指令微调优化,擅长响应用户编程意图
腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。这种跨模态感知能力为内容创作提供了极大的灵