阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频
阿里巴巴云计算部门发布全新AI模型Qwen2-VL,具备理解视觉内容的强大功能,能实时分析长达20分钟的视频,并总结视频内容、回答相关问题,提供在线聊天支持。在第三方基准测试中,Qwen2-VL部分指标超越了包括Meta的Llama3.1、OpenAI的GPT-4o、Anthropic的Claude3Haiku和Google的Gemini-1.5Flash在内的领先模型。支持英语、中文及多种欧洲、亚洲语言,适配全球用户。模型提供三个参数版本,7B和2B版本在Apache2.0许可证下开源,允许商业使用。Qwen2-VL还引入了Naive Dynamic Resolution和Multimodal Rotary Position Embedding技术,提升模型在不同分辨率图像处理和跨模态信息整合的能力。该模型旨在提升对视觉数据的理解和处理能力,是视觉语言模型技术的突破,阿里巴巴将继续探索其更多应用场景。