最高のMolmo AIツールモデル_厳選Molmo情報

AIニュース

AI2が完全オープンソースのネットワークプロキシMolmoWebを発表：視覚だけでウェブを制御可能

アラン人工知能研究所は、完全オープンソースのネットワークプロキシMolmoWebを発表しました。視覚駆動技術を採用し、スクリーンショットを分析してウェブページのナビゲーションを決定し、人間のようなブラウジング行動を模倣し、クリックやスクロールなどの操作を実現します。これは、ウェブナビゲーション技術における大きな飛躍を示しています。

13.9k 4 日前

AI2が完全オープンソースのネットワークプロキシMolmoWebを発表：視覚だけでウェブを制御可能

エイレン人工知能研究所が Molmo 2 オープンソース動画言語モデルをリリース

エイレン人工知能研究所は、オープンソースの動画言語モデルである Molmo2 シリーズを発表しました。このシリーズには、アリババの Qwen3 を基盤にした 4B と 8B バージョン、および Ai2Olmo を基盤とした完全なオープンソースの 7B バージョンが含まれており、トレーニングデータも公開され、そのオープンソースへのコミットメントが示されています。

15.4k 2 時間前

エイレン人工知能研究所が Molmo 2 オープンソース動画言語モデルをリリース

革新的オープンソースAIモデルMolmo、業界の巨人らを凌駕し、GPT-4oやClaude 3.5を上回る

先日、エイレン人工知能研究所（Ai2）は、新しいオープンソース多様なAIモデルファミリーであるMolmoを発表しました。その優れた性能は、複数の第三者ベンチマークテストにおいて、OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5を上回りました。Molmoはユーザーがアップロードした画像の分析にも対応しており、競合他社と比べて「1000分の1以下のデータ」を用いてトレーニングされたことも注目されます。

9.7k 5 日前

革新的オープンソースAIモデルMolmo、業界の巨人らを凌駕し、GPT-4oやClaude 3.5を上回る

AIデイリーニュース：MetaがLlama 3.2モデルとOrion ARグラスを発表、Soraの大幅アップデート、新しいNotion AIが登場

【AIデイリーニュース】へようこそ！AIの世界を探求するための毎日のガイドです。毎日、AI分野のホットなトピックを提供し、開発者に焦点を当て、技術トレンドを理解し、革新的なAI製品の応用を学ぶお手伝いをします。最新のAI製品はこちら：https://top.aibase.com/1、驚異的！Molmoの成功は、高品質で多様なトレーニングデータによるもので、優れたマルチモーダルインタラクション能力を示しています。

6.6k 1 日前

AI製品

Molmo

最先端をゆく多様なモダリティに対応するAIモデル群

AIモデル

10.4k

モデル

MolmoAct 7B D LIBERO Spatial 0812

allenai

MolmoActはアレン人工知能研究所によって開発されたオープンソースのロボット操作動作推論モデルで、Qwen2.5 - 7BとSigLip2視覚バックボーンネットワークに基づいて構築され、家庭およびデスクトップ環境における片腕のフランカロボット操作タスクに特化して最適化されています。

MolmoAct 7B D LIBERO Object 0812

allenai

MolmoActは、アレン人工知能研究所によって開発された完全なオープンソースのロボット操作アクション推論モデルで、Qwen2.5 - 7BとSigLip2の視覚バックボーンネットワークに基づいて構築され、家庭やデスクトップ環境でのロボット操作タスクに特化しています。

MolmoAct 7B D LIBERO Goal 0812

allenai

MolmoActはアレン人工知能研究所によって開発されたオープンソースの行動推論モデルで、ロボット操作タスクに特化しています。このモデルはQwen2.5 - 7BとSigLip2をベースに構築され、家庭およびデスクトップ環境における93種類の操作タスクで訓練され、優れた視覚 - 言語 - 行動処理能力を持っています。

MolmoAct 7B D LIBERO Long 0812

allenai

MolmoActはアレン人工知能研究所によって開発されたオープンソースの動作推論モデルで、ロボット操作タスクに特化しています。このモデルはQwen2.5 - 7BとSigLip2ビジュアルバックボーンネットワークに基づいており、家庭およびデスクトップ環境の93種類の独特な操作タスクで訓練され、優れたビジュアル - 言語 - 動作推論性能を持っています。