Any GPT
マルチモーダル大規模言語モデル
一般製品生産性マルチモーダルチャットボット
AnyGPTは、離散表現を用いて音声、テキスト、画像、音楽など様々なモダリティを統一的に処理する、統一的なマルチモーダル大規模言語モデルです。既存の大規模言語モデルのアーキテクチャや訓練方法を変えることなく、安定した訓練が可能です。データレベルの前処理に完全に依存することで、新たなモダリティを新たな言語を追加するのと同様に、シームレスに言語モデルに統合します。我々は、テキスト中心のマルチモーダルデータセットを構築し、マルチモーダルアライメント事前学習を行いました。生成モデルを用いて、任意から任意へのマルチモーダル指示データセットを初めて大規模に合成しました。これは10.8万件の多様なモダリティが混在する多回転会話例から構成されており、モデルは任意の組み合わせのマルチモーダル入出力に対応できます。実験結果から、AnyGPTは任意から任意へのマルチモーダル会話を促進し、全てのモダリティにおいて専用モデルと同等の性能を達成することが示され、離散表現が言語モデルにおいて複数のモダリティを効率的かつ容易に統一できることを実証しました。
Any GPT 最新のトラフィック状況
月間総訪問数
189
直帰率
91.29%
平均ページ/訪問
1.0
平均訪問時間
00:00:00