多様なモダリティAIを再定義!智源がネイティブマルチモーダルワールドモデルEmu3を発表
北京智源人工知能研究院は、ネイティブマルチモーダルワールドモデルEmu3を発表しました。このモデルは、ネクストトークンプレディクション技術に基づいており、拡散モデルや組み合わせ手法に依存することなく、テキスト、画像、ビデオの3種類のモダリティデータの理解と生成を実行できます。Emu3は、画像生成、ビデオ生成、ビジョン言語理解などのタスクにおいて、SDXL、LLaVA、OpenSoraなどの既存の著名なオープンソースモデルを上回る性能を示しました。