從文本生成到指令編輯 OmniGen2重塑開源多模態模型應用場景
近日,VectorSpaceLab在Hugging Face平臺正式開源全能多模態模型OmniGen2,以創新性雙組件架構和強大的視覺處理能力,爲研究者和開發者提供了高效的可控生成式AI基礎工具。這款模型由30億參數的視覺語言模型(VLM)Qwen-VL-2.5與40億參數的擴散模型組合而成,通過凍結的VLM解析視覺信號和用戶指令,結合擴散模型實現高質量圖像生成,在視覺理解、文本生成圖像、指令引導圖像編輯和上下文生成四大核心場景中展現出領先性能。 作爲開源項目,OmniGen2的視覺理解能力繼承自Qwen-VL-2.5的強大基礎,