阿里通義千問開源全新文生圖模型Qwen-Image
通義千問系列首次開源了一款名爲Qwen-Image的20億參數多模態擴散變換器(MMDiT)圖像生成基礎模型。這一創新成果不僅在複雜文本渲染和精確圖像編輯方面取得了突破性進展,更是在多個公開基準測試中展現了卓越性能,成爲圖像生成與編輯領域的新星。
Qwen-Image以其強大的文本渲染能力脫穎而出,支持多行佈局、段落級文本生成及細粒度細節呈現,無論是英語還是中文,均能實現高保真輸出。例如,在渲染宮崎駿風格的動漫場景時,模型能夠精準呈現店鋪牌匾、人物姿勢及神態,甚至酒缸上的細小文字也清晰可見。同樣,在中文對聯的渲染中,Qwen-Image不僅準確繪