最好的Diffusion Model AI工具模型_精选Diffusion Model资讯

AI资讯

字节跳动推出VLA通用机器人模型GR-3 支持高灵巧度操作

近日，字节跳动Seed团队正式推出全新Vision-Language-Action Model（VLA）模型GR-3，该模型在机器人操作领域展现出突破性能力，不仅能理解包含抽象概念的语言指令，还可精准操作柔性物体，并具备快速迁移至新任务、认识新物体的泛化能力。这一成果被视为迈向通用机器人“大脑”的重要进展。传统机器人操作模型往往依赖大量机器人轨迹数据进行训练，导致迁移至新任务时成本高、效率低。GR-3则通过少量人类数据即可实现高效微调，其核心突破在于采用Mixture-of-Transformers（MoT）网络结构，将视觉-语言模块与动作生成模块整合为40亿参数的端到端模型。其中，动作生成模块通过Diffusion Transformer(DiT)结合Flow-Matching技术生成动作，并引

9.6k 昨天

英伟达与MIT合作推出 Fast-dLLM 框架，AI 推理速度提升 27.6 倍

近日，科技巨头英伟达联合麻省理工学院（MIT）与香港大学，发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度，最高可达27.6倍，为人工智能的应用提供了更为强大的技术支持。扩散模型的挑战与机遇扩散模型被视为传统自回归模型（Autoregressive Models）的有力竞争者。它采用双向注意力机制(Bidirectional Attention Mechanisms)，理论上能够通过同步生成多个词元(Multi-token Generation)来加速解码过程。然而，在实际应用中，扩散模型的推理速度常常不及

14.7k 19 小时前

ChatDLM：全球首个扩散语言模型即将开源，引领AI技术新突破

据最新消息，全球首个扩散语言模型（Diffusion Language Model，DLM）ChatDLM即将开源，为全球开发者与研究者提供全新的AI工具，预计将推动生成式AI技术的进一步发展。技术亮点：高效与长上下文处理能力并存ChatDLM深度融合了块扩散（Block Diffusion）与专家混合（Mixture-of-Experts，MoE）架构，展现出卓越的性能表现。其核心技术特点包括：超高推理速度：在A100 GPU上，ChatDLM的推理速度高达2，800 tokens/秒，远超传统自回归语言模型，成为目前全球最快的语言模型之一。超长上下文窗口：支持高达131，

12.5k 1 天前

3DV-TON革新视频试穿，扩散模型驱动纹理3D一致性新体验

一款名为3DV-TON（Textured3D-Guided Consistent Video Try-on via Diffusion Models）的创新技术正式亮相，通过扩散模型实现纹理3D引导的视频试穿体验。据AIbase了解，3DV-TON利用先进的3D几何与纹理建模，结合视频扩散模型，确保服装在动态视频中的一致性与真实感，为电商、时尚和虚拟现实领域带来突破性应用。相关细节已通过学术平台与社交媒体公开。核心功能:3D纹理引导与视频一致性3DV-TON通过整合3D建模与视频生成技术，解决了传统虚拟试穿中动态不一致与纹理失真的难题。AIbase梳理了其主要亮点:

15.5k 昨天