AIM
大規模自己回帰画像モデル事前学習
一般製品画像視覚モデル自己回帰事前学習
本論文では、自己回帰目標を用いて事前学習された一連の視覚モデルであるAIMを紹介します。これらのモデルは、そのテキスト対応物である大規模言語モデル(LLM)に触発されており、同様のスケーラビリティ特性を示します。具体的には、(1) モデル容量とデータ量の増加に伴い、視覚特徴の性能が向上すること、(2) 目標関数の価値が下流タスクにおけるモデルの性能と相関していることの2つの重要な発見を強調します。70億パラメータのAIMを20億枚の画像で事前学習することで、ImageNet-1kにおいて、主幹を凍結した状態で84.0%の精度を達成しました。興味深いことに、この規模においても性能飽和の兆候は見られず、AIMは大規模視覚モデルの訓練における新たな最先端技術を表す可能性を示唆しています。AIMの事前学習はLLMの事前学習と同様に、大規模訓練を安定させるための画像固有の戦略を必要としません。
AIM 最新のトラフィック状況
月間総訪問数
3875600
直帰率
65.38%
平均ページ/訪問
2.0
平均訪問時間
00:01:13