騰訊混元DiT推出6G小顯存版本 混元Captioner正式對外開源
騰訊最新升級的混元文生圖大模型(混元DiT)1.2版本,適配了Onijza、LoRA、ControlNet和Kohya插件於Diffusers庫,顯著降低了訓練個性化圖像生成模型的門檻。該升級版本圖片質感和構圖顯著提升,支持中英文雙語描述的混元Captioner模型更準確地理解中文語義,生成結構化、完整和準確的圖片描述。混元Captioner模型的開源,允許全球研究者和數據標註人員提升圖像描述質量,生成更全面準確的圖片描述,大大提高其在訓練各類視覺模型過程中的應用效果。最重要的是,混元DiT模型的小顯存版本簡化了使用成本,最低僅需6G顯存即可運行,從而擴大了其在個人電腦領域的廣泛應用潛力。QinT技術報告詳述了此模型的創新功能和應用優化。