最好的Diffusion Model AI工具模型_精選Diffusion Model資訊

AI資訊

字節跳動推出VLA通用機器人模型GR-3 支持高靈巧度操作

近日，字節跳動Seed團隊正式推出全新Vision-Language-Action Model（VLA）模型GR-3，該模型在機器人操作領域展現出突破性能力，不僅能理解包含抽象概念的語言指令，還可精準操作柔性物體，並具備快速遷移至新任務、認識新物體的泛化能力。這一成果被視爲邁向通用機器人“大腦”的重要進展。傳統機器人操作模型往往依賴大量機器人軌跡數據進行訓練，導致遷移至新任務時成本高、效率低。GR-3則通過少量人類數據即可實現高效微調，其核心突破在於採用Mixture-of-Transformers（MoT）網絡結構，將視覺-語言模塊與動作生成模塊整合爲40億參數的端到端模型。其中，動作生成模塊通過Diffusion Transformer(DiT)結合Flow-Matching技術生成動作，並引

9.6k 昨天

英偉達與MIT合作推出 Fast-dLLM 框架，AI 推理速度提升 27.6 倍

近日，科技巨頭英偉達聯合麻省理工學院（MIT）與香港大學，發佈了名爲 Fast-dLLM 的新框架。這一創新的框架旨在顯著提高擴散模型(Diffusion-based LLMs)的推理速度，最高可達27.6倍，爲人工智能的應用提供了更爲強大的技術支持。擴散模型的挑戰與機遇擴散模型被視爲傳統自迴歸模型（Autoregressive Models）的有力競爭者。它採用雙向注意力機制(Bidirectional Attention Mechanisms)，理論上能夠通過同步生成多個詞元(Multi-token Generation)來加速解碼過程。然而，在實際應用中，擴散模型的推理速度常常不及

14.7k 16 小時前

ChatDLM：全球首個擴散語言模型即將開源，引領AI技術新突破

據最新消息，全球首個擴散語言模型（Diffusion Language Model，DLM）ChatDLM即將開源，爲全球開發者與研究者提供全新的AI工具，預計將推動生成式AI技術的進一步發展。技術亮點：高效與長上下文處理能力並存ChatDLM深度融合了塊擴散（Block Diffusion）與專家混合（Mixture-of-Experts，MoE）架構，展現出卓越的性能表現。其核心技術特點包括：超高推理速度：在A100 GPU上，ChatDLM的推理速度高達2，800 tokens/秒，遠超傳統自迴歸語言模型，成爲目前全球最快的語言模型之一。超長上下文窗口：支持高達131，

12.5k 1 天前

3DV-TON革新視頻試穿，擴散模型驅動紋理3D一致性新體驗

一款名爲3DV-TON（Textured3D-Guided Consistent Video Try-on via Diffusion Models）的創新技術正式亮相，通過擴散模型實現紋理3D引導的視頻試穿體驗。據AIbase瞭解，3DV-TON利用先進的3D幾何與紋理建模，結合視頻擴散模型，確保服裝在動態視頻中的一致性與真實感，爲電商、時尚和虛擬現實領域帶來突破性應用。相關細節已通過學術平臺與社交媒體公開。核心功能:3D紋理引導與視頻一致性3DV-TON通過整合3D建模與視頻生成技術，解決了傳統虛擬試穿中動態不一致與紋理失真的難題。AIbase梳理了其主要亮點:

15.5k 昨天