腾讯混元DiT推出6G小显存版本 混元Captioner正式对外开源
腾讯最新升级的混元文生图大模型(混元DiT)1.2版本,适配了Onijza、LoRA、ControlNet和Kohya插件于Diffusers库,显著降低了训练个性化图像生成模型的门槛。该升级版本图片质感和构图显著提升,支持中英文双语描述的混元Captioner模型更准确地理解中文语义,生成结构化、完整和准确的图片描述。混元Captioner模型的开源,允许全球研究者和数据标注人员提升图像描述质量,生成更全面准确的图片描述,大大提高其在训练各类视觉模型过程中的应用效果。最重要的是,混元DiT模型的小显存版本简化了使用成本,最低仅需6G显存即可运行,从而扩大了其在个人电脑领域的广泛应用潜力。QinT技术报告详述了此模型的创新功能和应用优化。