颠覆 Stable Diffusion!智源重磅发布 Emu3,图像、文本、视频全拿下!
来自智源研究院的Emu3团队发布了一套全新的多模态模型Emu3,该模型仅基于下一个token预测进行训练,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上均取得了最先进的性能。一直以来,下一个token预测被认为是通向人工智能通用智能(AGI)的希望之路,但在多模态任务上却表现不佳。目前,多模态领域仍然由扩散模型(如Stable Diffusion)和组合模型(如CLIP与LLM的结合)主导。Emu3团队将图像、文本和视频都标记化到离散空间中,并在混合的多模态序列上从头开始训练单个Transformer模型