アリババ達摩院、EC向けマルチモーダル大規模言語モデルValley 2を発表
アリババ達摩院は先日、Valley2というマルチモーダル大規模言語モデルを発表しました。このモデルはECシーン向けに設計されており、拡張可能な視覚言語アーキテクチャを通じて、様々な分野のパフォーマンス向上と、ECおよび短編動画シーンにおける応用範囲の拡大を目指しています。Valley2はLLMのバックボーンとしてQwen2.5を採用し、SigLIP-384ビジョンエンコーダーとMLP層、畳み込み演算を組み合わせることで、効率的な特徴変換を実現しています。