全新 GoT-R1 多模態模型發佈:讓 AI 畫圖更聰明,圖像生成新紀元!
近日,來自香港大學、香港中文大學以及商湯科技的研究團隊發佈了一個令人矚目的新框架 ——GoT-R1。這一全新的多模態大模型通過引入強化學習(RL),在視覺生成任務中顯著提升了 AI 的語義和空間推理能力,成功應對複雜的文本提示生成高保真、語義一致的圖像。這一進展標誌着圖像生成技術的又一次飛躍。目前,儘管現有的多模態大模型在根據文本提示生成圖像方面已有顯著進展,但在處理涉及精準空間關係和複雜組合的指令時,仍面臨諸多挑戰。GoT-R1正是爲了解決這一問題而誕生