image.png
物理AI(Physical AI)は従来のAIとは異なり、ビデオなどの感覚入力を使用し、現実の物理法則と組み合わせて反応を生成します。物理AIの応用分野にはロボットや自動運転車などが含まれ、これらは日常的な推論能力や空間、時間、物理法則に対する深い理解が必要です。 しかし、現在のAIモデルは物理的な世界との接続において弱点があり、重力や空間関係を直感的に理解できないため、具象的なタスクでのパフォーマンスが劣ります。物理的な世界で直接訓練することはコストがかかりすぎ、リスクも高いため、物理AIの発展を一定程度妨げています。 これらの問題に対処するために、NVIDIAのCosmos-Reason1モデルは革新的な解決策を提案しています。このシリーズにはCosmos-Reason1-7BとCosmos-Reason1-56Bの2つのバージョンがあります。これらは物理AIの監視微調整と強化学習の2段階のトレーニングプロセスを使用しています。 研究チームは二重オントロジーを導入しました。一つの階層的なオントロジーは物理的な常識を空間、時間、基礎的な物理の3つのカテゴリーに分け、もう一つのオントロジーはロボットアームやヒューマノイドロボットなど、具象的なエージェントの推論能力をマッピングします。 モデルアーキテクチャは、ビジュアルエンコーダーと統合された大規模な言語モデルであり、ビデオデータを処理し、テキストとビジュアルデータの同時推論を可能にします。そのため、研究チームは物理的な常識に関する3つのベンチマークテストを作成し、計604問の質問と426本のビデオ、また具象的な推論に関する6つのベンチマークテストを作成し、計610問の質問と600本のビデオを含んでいます。 トレーニング後、Cosmos-Reason1モデルは物理的な常識と具象的な推論のベンチマークテストで優れたパフォーマンスを示し、特に強化学習トレーニング後、次のアクションの予測、タスク完了の検証、物理的な可能性の評価などで顕著な進展を遂げました。 Cosmos-Reason1シリーズのモデルの登場により、NVIDIAは物理的な推論タスクに対して新たなソリューションを提供し、ロボットや自動運転車分野での将来の応用が期待されます。 アクセス先: https://github.com/nvidia-cosmos/cosmos-reason1

ポイント:

🌟 NVIDIAがCosmos-Reason1シリーズのモデルを発表し、AIの物理推論能力を向上させました。

🤖 このモデルは二重オントロジーを採用し、テキストとビジュアルデータの同時推論を行います。

📈 Cosmos-Reason1モデルは物理的な常識と具象的な推論において優れたパフォーマンスを示しました。