字节跳动推出Phantom视频生成工具：主体一致性表现卓越

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Feb 19, 2025

1.0k

字节跳动近日推出了一款名为Phantom的创新视频生成工具，该工具基于参考主体进行视频生成，在主体一致性方面表现出色，引发业界广泛关注。

Phantom的核心优势在于其强大的主体保持能力。无论是人物、物品、服装、动物还是虚拟角色，Phantom都能在生成的视频中确保主体特征的高度一致性。这意味着，即便在不同的场景、动作和交互过程中，视频中的主体（如人物的面部特征、服装细节等）都能保持稳定，不会出现变形或失真。

据悉，Phantom支持单主体和多主体参考生成，为用户提供了灵活的创作空间。此外，该工具还支持广泛的主体类型，包括:人物，物品，服装，动物，虚拟角色等。

Phantom生成的视频内容风格多样，涵盖室内外场景，并能处理复杂的动作及互动。这使得Phantom能够满足用户在不同场景下的视频创作需求，为内容创作者提供了强大的技术支持。

从目前展示的效果来看，Phantom在主体一致性方面达到了业界领先水平，尤其在处理面部特征、服装和物品等细节时表现出色。这预示着Phantom有望在短视频、电影制作、游戏开发等领域发挥重要作用。

Phantom的推出，标志着字节跳动在AI视频生成领域迈出了重要一步，也为整个行业带来了新的可能性。未来，Phantom有望进一步降低视频创作门槛，激发更多创意内容的产生。

项目页:https://phantom-video.github.io/Phantom/

字节跳动 Phantom 视频生成主体保持

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

复旦携手腾讯推出说话人视频生成工具DICE-Talk，备情感表达

由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布，以其卓越的情感表达能力和逼真的人物表现引发行业热议。AIbase通过整合社交媒体最新动态及公开信息，为您深度解析这一技术突破的亮点与潜力。DICE-Talk的核心创新在于其身份-情感分离处理机制。通过将说话人的身份特征（如面部细节、肤色）与情感表达(表情、语气)解耦，DICE-Talk确保在情感变化时人物外观保持高度一致，避免了传统生成工具中常见的“表情跳变”问题。其协同情感处理技术进一步实现了不同情

2025年5月16号 14:49

1.8k

AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相Wan2.1-VACE开源号称首个开源的视频编辑统一模型通义万相宣布VACE开源，支持多种分辨率和任务，提供一站式视频创作体验，通过多模态输入机制实现高效灵活的视频编辑。【AiBase提要:】✨ 支持文生视频、图像参考生成、局部编辑与视频扩展等多种任务，提高创作效率。🌟 强大

2025年5月15号 15:51

5.3k

Poe 报告：可灵大模型视频生成量约占30%份额领先Runway

近日，全球知名的大模型整合应用平台 Poe 发布了2025年春季 AI 模型使用趋势报告。报告显示，在文生视频领域，中国的快手可灵多款视频生成模型迅速崛起，已占据了约30% 的市场份额，领先于 Runway 和谷歌的 Veo2。图源备注：图片由AI生成，图片授权服务商Midjourney特别值得一提的是，可灵2.0模型自今年4月推出以来，仅仅在三周内就取得了21% 的使用比例，展现出其强大的市场吸引力和应用能力。该模型在动态质量、语义响应和画面美学等多个维度上，继续保持全球领先地位。根据数据显示

2025年5月15号 14:07

2.9k

可灵 2.0 模型再创佳绩，稳居全球视频生成大模型榜首！

在最近发布的全球视频生成大模型榜单中，快手旗下的可灵 AI2.0模型以1124分的 Arena ELO 评分一举超越了其前任1.6版本，成功夺得全球冠军。这一消息引发了广泛关注，尤其是在 AI 技术日益崛起的背景下。可灵 AI2.0模型已经连续三个月稳居图生视频领域的顶端，显示出其强大的技术实力和市场潜力。可灵 AI2.0于4月15日在北京正式发布，针对动态质量、语义理解以及画面美学等核心指标进行了全面提升，持续引领行业发展。自从2023年6月上线以来，可灵 AI 的全球用户数已突破2200万，月活跃用

2025年5月15号 9:22

2.6k

阿里巴巴开源全能视频大模型，赋能视频生成与编辑

5月14日晚，阿里巴巴正式推出了通义万相 Wan2.1-VACE，这是当前行业中功能最为全面的视频生成与编辑模型。该模型的亮点在于它具备多种强大的能力，可以同时实现文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展和时长延展等多项基础生成和编辑功能。这一开创性的产品标志着视频制作的门槛进一步降低，使更多的创作者能够轻松上手。此次开源的模型分为两个版本，分别为1.3B 和14B，其中1.3B 版本特别设计为能够在消费级显卡上流畅运行，意味着即使是普通用户也能体验到

2025年5月15号 8:49

1.6k

字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

在人工智能领域竞争日益激烈的今天，字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL，旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练，不仅具备强大的通用多模态理解和推理能力，还显著降低了推理成本。与谷歌近期推出的 Gemini2.5Pro 相比，Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pro 支持图像、视频、音频和代码的统一理解，并在多个基准测试中领先于 GPT-4.0。字节跳动的 Seed 团队表示，尽管 Seed1.5-VL 的激活参数仅为2

2025年5月14号 11:16

3.9k

字节跳动发布统一图像定制框架DreamO：集成换装、换脸与风格迁移

字节跳动在Hugging Face平台正式开源了全新图像定制框架DreamO，这一框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能，为AI图像编辑领域带来了全新的技术突破。AIbase编辑部整理了最新信息，深入解析DreamO的核心亮点及其对行业的潜在影响。框架亮点:一站式图像定制解决方案DreamO被设计为一个统一的图像定制框架，支持多样化的编辑任务，并通过灵活的参数设置实现无缝整合。根据官方介绍，DreamO基于DiT（Diffusion Transformer）图像模型，能够高效处理复杂的图像编

2025年5月13号 9:35

2.4k

AI日报：DeepSeek入选2025年度十大IP；快手推出AI作图工具 Poify；字节跳动开源代码模型Seed-Coder

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、快手推出 AI 作图工具 Poify，聚焦电商市场快手最近推出了AI作图工具Poify，专注于电商领域的图像处理，旨在提高商家在产品展示方面的效率和经济性。Poify的核心功能包括文生图和图生图，特别适用于电商需求，提供AI模特试衣、背景更换等创新能力，帮助商家降低成本并提升视觉吸引力。【

2025年5月12号 16:16

8.0k

字节跳动发布开源代码模型Seed-Coder，8B参数引领编程新风潮

字节跳动Seed团队正式推出全新开源代码模型Seed-Coder，以其卓越的代码生成、补全、编辑及推理能力引发业界广泛关注。作为一款8B参数规模的模型，Seed-Coder在多个基准测试中超越同级别竞品，展现出强大的编程潜力和高效的数据处理设计。模型概览:8B参数，32K上下文，MIT协议开源Seed-Coder是一个专注于代码生成、编程和软件工程任务的模型系列，包含三个主要变体:Seed-Coder-8B-Base:基于模型为中心的代码数据预训练，奠定坚实基础。Seed-Coder-8B-Instruct:通过指令微调优化，擅长响应用户编程意图

2025年5月12号 10:17

6.2k

高一致性、强控制力，腾讯发布多模态视频生成利器 HunyuanCustom

腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom，标志着AI视频创作进入更高自由度与精准控制的全新阶段。该框架基于腾讯自研的 HunyuanVideo 打造，主打**“主体一致性”与“多模态灵活输入”**，致力于实现视频内容与输入素材高度匹配的个性化生成。HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入，系统可综合这些信息生成定制化视频。这种跨模态感知能力为内容创作提供了极大的灵

2025年5月12号 9:46

2.8k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图