昆仑万维集团在SkyWork AI技术发布周的第三天,宣布正式开源其最新研发的「Skywork UniPic2.0」模型。这一统一多模态模型的发布,标志着多模态人工智能领域的又一次重大突破。Skywork UniPic2.0是一个面向统一多模态建模的高效训练和推理框架,它通过生成和编辑模块的轻量化,以及多模态理解模型的联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。

微信截图_20250813091518.png

Skywork UniPic2.0由三个核心模块组成:生图编辑、统一模型能力和生图编辑后训练。该模型基于SD3.5-Medium架构,将原本只支持文本输入的模型改进为同时接受文本和图像输入,扩展了生图能力至生图和编辑双能力。通过冻结生图编辑模块,多模态模型Qwen2.5-VL-7B,Pre-Train连接器来构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块一起联合微调,实现最终的一体化理解、生图、编辑模型。

Skywork UniPic2.0的发布,不仅为开发者与研究者提供了一个全面开源的平台,包括模型权重、推理代码、强化策略等,而且其生成模块基于2B参数的SD3.5-Medium架构训练,生图和编辑指标超越了具有更大参数量的其他模型。此外,该模型引入了强化学习,基于Flow-GRPO首创渐进式双任务强化策略,有效提升了模型对复杂指令的理解能力与图像生成和编辑的一致性。

微信截图_20250813091544.png

项目主页:

https://unipic-v2.github.io/

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GitHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery

HuggingFace Model: 

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B; https://huggingface.co/Skywork/UniPic2-Metaquery-9B