上海交大博士发现大bug!AI画家竟然画不出茶杯中的冰可乐!
AI画家在生成特定场景如“茶杯中的冰可乐”时遇到困难,揭示了文本图像不对齐问题。上海交通大学博士赵峻图及其团队发现,即使是最先进的AI模型也难以准确理解并实现文本描述的复杂概念,如透明玻璃杯与传统茶杯的差异。为解决这一问题,他们提出了Mixture of Concept Experts(MoCE)方法,利用大语言模型帮助AI理解隐藏概念,从而更精确地控制文本与图像之间的对齐。MoCE通过分阶段提供概念信息,显著提高了AI生成图像的准确性,减少了复杂概念对生成效果的影响,甚至在某些情况下超越了依赖大量数据标注的模型。研究还揭示了现有评价指标的局限性,强调了改进AI理解和再现人类创造力的必要性。未来工作将探索更复杂的不对齐场景,开发更高效的搜索算法,并持续优化数据集,以推动AI图像生成技术的发展。