阿里巴巴達摩院近日推出了一款名爲Valley2的多模態大型語言模型,該模型基於電商場景設計,旨在通過可擴展的視覺-語言架構,提升各領域性能並拓展電商與短視頻場景的應用邊界。Valley2採用了Qwen2.5作爲LLM主幹,搭配SigLIP-384視覺編碼器,結合MLP層和卷積進行高效特徵轉換。