阿里重磅開源超強AI模型Qwen2-VL:能理解超 20 分鐘視頻
阿里巴巴雲計算部門發佈全新AI模型Qwen2-VL,具備理解視覺內容的強大功能,能實時分析長達20分鐘的視頻,並總結視頻內容、回答相關問題,提供在線聊天支持。在第三方基準測試中,Qwen2-VL部分指標超越了包括Meta的Llama3.1、OpenAI的GPT-4o、Anthropic的Claude3Haiku和Google的Gemini-1.5Flash在內的領先模型。支持英語、中文及多種歐洲、亞洲語言,適配全球用戶。模型提供三個參數版本,7B和2B版本在Apache2.0許可證下開源,允許商業使用。Qwen2-VL還引入了Naive Dynamic Resolution和Multimodal Rotary Position Embedding技術,提升模型在不同分辨率圖像處理和跨模態信息整合的能力。該模型旨在提升對視覺數據的理解和處理能力,是視覺語言模型技術的突破,阿里巴巴將繼續探索其更多應用場景。