最好的Latent Diffusion AI工具模型_精选Latent Diffusion资讯

AI资讯

字节开源嘴型同步模型LatentSync，实现超真实口型同步

近日，字节跳动发布了名为 LatentSync 的新型口型同步框架，旨在利用音频条件潜在扩散模型实现更精确的口型同步。该框架基于Stable Diffusion，针对时间一致性做了优化。与以往的基于像素空间扩散或两阶段生成的方法不同，LatentSync 采用端到端的方式，无需中间运动表示，能够直接建模复杂的音频与视觉之间的关系。在 LatentSync 的框架中，首先使用 Whisper 将音频频谱图转换为音频嵌入，并通过交叉注意力层将其集成到 U-Net 模型中。框架通过将参考帧和掩码帧与噪声潜在变量进行通道级拼接

30.9k 01-15

字节跳动开源全新AI模型LatentSync 精准控制唇形同步

字节跳动近日开源了一项名为 LatentSync 的创新技术，该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示，即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同，LatentSync 直接利用了 Stable Diffusion 的强大功能，能更有效地建模复杂的视听关联。研究发现，基于扩散的唇同步方法在时间一致性方面表现不佳，因为不同帧之间的扩散过程存在不一致性。为了解决这个问题，LatentSync 引入了时间表示

35.3k 4 天前

阿里团队出品！妆容迁移技术SHMT：提供化妆参考图就能给你上妆

近日，阿里巴巴达摩院的研究团队发布了一项重要研究成果，名为 “SHMT:自监督层次化妆转移”，该论文已被国际顶级学术会议 NeurIPS2024接收。这项研究展示了一种新的化妆效果转移技术，利用潜在扩散模型（Latent Diffusion Models）来实现化妆图像的精准生成，为化妆应用和图像处理领域注入了新活力。简单的说，SHMT是一项妆容迁移技术，只要一个化妆的参考图，和一张目标角色照片，就可以把妆容效果迁移到该目标脸上。团队在项目中采用了开源的方式，发布了训练代码、测试代码以及预

18k 前天

复旦、百度联手打造全新AI模型Hallo2 可生成4K超高清+1小时超长视频！

复旦大学和百度公司的研究人员联合开发了一种名为 Hallo2的全新 AI 模型，该模型可以生成长达数小时的4K 分辨率人物动画，并且可以通过语音和文字提示进行精准控制。一直以来，生成高质量的人物动画需要耗费大量的时间和人力成本。而 Hallo2的出现，有望彻底改变这一现状，为电影制作、虚拟助手、游戏开发等领域带来革命性的变化。Hallo2模型建立在 latent diffusion models 的基础上，并引入了一系列创新性的技术，包括:Patch-drop 数据增强技术:通过对运动帧进行随机遮挡，防止模型过度依

23.6k 2 小时前

模型

qwen3-vl-235b-a22b-thinking

Alibaba

输入tokens/百万

$20

输出tokens/百万

上下文长度

Hunyuan-T1-latest

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

qwen-vl-max

Alibaba

$1.6

输入tokens/百万

输出tokens/百万

128

上下文长度

GPT OSS 120B

Openai

$0.63

输入tokens/百万

$3.15

输出tokens/百万

131

上下文长度

Claude Opus 4.1

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Doubao-1.5-UI-TARS

Bytedance

$3.5

输入tokens/百万

$12

输出tokens/百万

128

上下文长度

Hunyuan-TurboS-latest

Tencent

$0.8

输入tokens/百万

输出tokens/百万

上下文长度

Grok-4 Heavy

Xai

输入tokens/百万

输出tokens/百万

上下文长度

Gemma 3n E2B Instructed LiteRT (Preview)

Google

输入tokens/百万

输出tokens/百万

上下文长度

Gemma 3n E4B Instructed LiteRT Preview

Google

输入tokens/百万

输出tokens/百万

上下文长度

Pangu-AgentExpert-N1-0.0.2

Huawei

输入tokens/百万

输出tokens/百万

上下文长度

Claude Sonnet 4

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Gemini Diffusion

Google

输入tokens/百万

输出tokens/百万

上下文长度

kimi-latest-32k

Moonshot

输入tokens/百万

$20

输出tokens/百万

上下文长度

kimi-latest-128k

Moonshot

$10

输入tokens/百万

$30

输出tokens/百万

131

上下文长度

kimi-latest-8k

Moonshot

输入tokens/百万

$10

输出tokens/百万

上下文长度

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图