字节跳动Seed团队发布新一代3D生成大模型Seed3D2.0,在几何精度与材质真实度上实现突破,核心指标达行业领先水平,有效解决边缘软化、拓扑失真等痛点。模型采用“粗到精”两阶段DiT架构,通过解耦整体结构与细节,推动AI 3D内容生成迈向“生产级可用”。
通义千问发布图像生成模型Qwen-Image-Layered,创新采用“图层拆解”技术,实现静态图片的精准编辑。该模型通过“图像解耦”思路,将图片自动分层,有效解决传统AI编辑中全局修改破坏一致性和局部编辑处理遮挡模糊边界的两大痛点,开启“指哪改哪”的新时代。
vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
昆仑元AI在2025世界计算大会上发布全模态融合模型BaiZe-Omni-14b-a2b,基于昇腾平台,具备文本、音频、图像和视频的理解与生成能力。采用模态解耦编码、统一跨模态融合和双分支功能设计等创新架构,推动多模态应用发展。模型流程包括输入处理、模态适配、融合、核心功能和输出解码。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
Ricky06662
VisionReasoner-7B是一个图像文本到文本的模型,采用解耦架构,由推理模型和分割模型组成,能解读用户意图并生成像素级掩码。
deepseek-community
Janus-Pro是一种新颖的自回归框架,统一了多模态理解和生成,通过解耦视觉编码路径增强灵活性。
Janus-Pro是一种新颖的自回归框架,统一了多模态理解和生成任务,通过解耦视觉编码增强灵活性。
Athagi
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。它通过解耦视觉编码路径,使用单一的统一 Transformer 架构处理多模态任务。
deepseek-ai
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解与生成能力。通过解耦视觉编码路径,使用单一 Transformer 架构处理多模态任务。
Janus-Pro 是一种创新的自回归框架,统一了多模态理解与生成功能。通过解耦视觉编码路径,采用单一Transformer架构处理,解决了视觉编码器在理解与生成角色间的冲突。
Janus 是一种新颖的自回归框架,统一了多模态理解与生成。它通过解耦视觉编码,解决了先前方法的局限性,增强了框架的灵活性。
RED-AIGC
TDD是一种通过目标时间步选择与解耦引导的一致性蒸馏方法,能够显著减少生成高质量图像所需的推理步数(仅需4-8步)。