AIM

大規模自己回帰画像モデル事前学習

一般製品画像視覚モデル自己回帰事前学習

本論文では、自己回帰目標を用いて事前学習された一連の視覚モデルであるAIMを紹介します。これらのモデルは、そのテキスト対応物である大規模言語モデル（LLM）に触発されており、同様のスケーラビリティ特性を示します。具体的には、(1) モデル容量とデータ量の増加に伴い、視覚特徴の性能が向上すること、(2) 目標関数の価値が下流タスクにおけるモデルの性能と相関していることの2つの重要な発見を強調します。70億パラメータのAIMを20億枚の画像で事前学習することで、ImageNet-1kにおいて、主幹を凍結した状態で84.0%の精度を達成しました。興味深いことに、この規模においても性能飽和の兆候は見られず、AIMは大規模視覚モデルの訓練における新たな最先端技術を表す可能性を示唆しています。AIMの事前学習はLLMの事前学習と同様に、大規模訓練を安定させるための画像固有の戦略を必要としません。

AIツールを探す

AIツールを提出

AI モデル検索

MCPサーバー

MCPクライアント

MCPインスペクター

ケーススタディ

最新AIニュース

AI日刊要約

AIM

AIM 最新のトラフィック状況

AIM 訪問数の傾向

AIM 訪問地理的分布

AIM トラフィックソース

AIM 代替品

AIM — 大規模自己回帰画像モデル事前学習

MarDini — 大規模動画生成のための自己回帰拡散モデル

循環型事前学習モデル — 4096個のAMD GPU上で動作する大規模深層循環言語モデルの事前学習コードです。

視覚検査 — モデル間の文字列関係を学習し、視覚世界を検査する

視覚アナグラム — 事前学習済み拡散モデルを用いて視覚錯覚を作成します。

星辰語義大モデル — 中国電信が提供する、千億パラメーターの大規模言語モデルです。

雅意情報抽出大規模モデル — 大規模データに基づく高品質な情報抽出モデル

自己報酬型言語モデル — 言語モデルによる自己報酬学習

VSP-LLM — 視覚音声処理と大規模言語モデルを組み合わせたフレームワーク

大規模概念モデル — 文表現空間における言語モデリング

モデル一覧表 — 大規模言語モデルの詳細な一覧と情報

InternVL2_5-26B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

MoE-LLaVA — 大規模視覚言語モデルに基づくエキスパート混合モデル

大規模ワールドモデル — 動画と言語を理解する大規模ワールドモデル

LlamaGen — 拡張可能な画像生成分野における自己回帰モデルの新たなブレークスルー

Meta Llama 3.1-405B — 大規模多言語事前学習済み言語モデル

Open-MAGVIT2 — オープンソースの自己回帰型画像生成モデルプロジェクト

大規模言語モデル之家 — 人工知能大規模言語モデル産業に関する包括的な情報と革新的な価値研究を提供します。

Lumina-mGPT — テキストから画像を生成することに長けた多様なモーダルを備えた自己回帰モデル

孟子生成型大規模言語モデル（孟子GPT） — 生成シナリオに対応した制御可能な大規模言語モデル

Pyramid Flow miniFLUX — 高効率な自己回帰型ビデオ生成モデル

自己適応型LLM — 未経験のタスクにもリアルタイムで適応する、自己適応型大規模言語モデルフレームワークです。

olmo-mix-1124 — 大規模マルチモーダル事前学習済みデータセット

大規模地理空間モデル — 大規模機械学習を用いてシーンを理解し、世界中の数百万ものシーンを接続する地理空間モデル

Janus — 次世代自己回帰フレームワーク。マルチモーダル理解と生成を統合

InternVL2_5-78B — 最先端多モーダル大規模言語モデルシリーズ

林哥の大規模言語モデルランキング — 中国の赤ちゃんにも最適な大規模言語モデル製品ランキング

Meta Llama 3.3 — 70Bパラメーターの多言語大規模事前学習言語モデル

孟子3-13B大規模言語モデル — 瀾舟科技開発の孟子3-13B大規模言語モデル。商用利用無料です。