オープンソース多モーダルモデルMolmo、画像内の物体を認識し正確な説明を生成
最近、Molmoというオープンソースの多モーダルAIモデルが業界で大きな注目を集めています。OpenAIのCLIPをビジョン処理エンジンとして使用し、Qwen2-72BをベースとしたこのAIシステムは、その優れた性能と革新的な機能で、従来の商用モデルの覇権に挑戦しています。Molmoの顕著な特徴はその高い性能です。比較的サイズが小さいにもかかわらず、処理能力は10倍規模の競合他社に匹敵します。この小さくても強力な設計思想は、モデルの効率性を高めることに貢献しています。