Unified-IO 2
統一されたマルチモーダル生成モデル
一般製品画像マルチモーダルTransformer
Unified-IO 2は、画像、テキスト、音声、動作を理解し生成できる統一されたマルチモーダル生成モデルです。単一のエンコーダー・デコーダーTransformerモデルを使用し、異なるモダリティ(画像、テキスト、音声、動作など)の入出力は、共有された意味空間で表現され処理されます。このモデルは、大規模なマルチモーダル事前学習データセットでゼロからトレーニングされ、マルチモーダルのノイズ除去目標で最適化されています。幅広いスキルを習得するために、120個の既存データセットでファインチューニングされており、これにはプロンプトとデータ拡張が含まれています。Unified-IO 2はGRITベンチマークにおいて最先端の性能を達成し、画像生成と理解、テキスト理解、ビデオと音声の理解、ロボット操作など30以上のベンチマークで強力な結果を示しています。
Unified-IO 2 最新のトラフィック状況
月間総訪問数
333
直帰率
100.00%
平均ページ/訪問
1.0
平均訪問時間
00:00:00