为复杂视觉推理而生!微软发布Phi-3.5-vision 轻量级、多模态开源模型
微软发布Phi-3.5-vision,一款轻量级、多模态开源AI模型,专为处理文本和视觉输入设计,支持128K上下文长度。该模型适用于资源受限环境,具备图像理解、OCR、图表解析、多图像摘要等功能,展现出色性能和低延迟。由42亿参数构成,通过高质量数据训练,确保性能和隐私。包含三款模型:轻量级AI、专家混合和多模态模型,均在图像和视频处理基准测试中表现出优异成绩。此模型适合AI驱动应用,特别是端侧运行和复杂视觉推理,提供强大支持。