OneLLMは、汎用エンコーダーと統一的な投影モジュールを使用してLLMと多モーダル入力をアラインメントさせる多モーダルアラインメント統合フレームワークです。画像、音声、ビデオなど、多様なモダリティデータの理解をサポートし、実験により、複数のタスクにおいて既存の方法を上回り、強力なゼロショット能力を持つことが示されています。
あらゆる言語モダリティを統合するフレームワーク