上海交大博士發現大bug!AI畫家竟然畫不出茶杯中的冰可樂!
AI畫家在生成特定場景如“茶杯中的冰可樂”時遇到困難,揭示了文本圖像不對齊問題。上海交通大學博士趙峻圖及其團隊發現,即使是最先進的AI模型也難以準確理解並實現文本描述的複雜概念,如透明玻璃杯與傳統茶杯的差異。爲解決這一問題,他們提出了Mixture of Concept Experts(MoCE)方法,利用大語言模型幫助AI理解隱藏概念,從而更精確地控制文本與圖像之間的對齊。MoCE通過分階段提供概念信息,顯著提高了AI生成圖像的準確性,減少了複雜概念對生成效果的影響,甚至在某些情況下超越了依賴大量數據標註的模型。研究還揭示了現有評價指標的侷限性,強調了改進AI理解和再現人類創造力的必要性。未來工作將探索更復雜的不對齊場景,開發更高效的搜索算法,並持續優化數據集,以推動AI圖像生成技術的發展。