爲複雜視覺推理而生!微軟發佈Phi-3.5-vision 輕量級、多模態開源模型
微軟發佈Phi-3.5-vision,一款輕量級、多模態開源AI模型,專爲處理文本和視覺輸入設計,支持128K上下文長度。該模型適用於資源受限環境,具備圖像理解、OCR、圖表解析、多圖像摘要等功能,展現出色性能和低延遲。由42億參數構成,通過高質量數據訓練,確保性能和隱私。包含三款模型:輕量級AI、專家混合和多模態模型,均在圖像和視頻處理基準測試中表現出優異成績。此模型適合AI驅動應用,特別是端側運行和複雜視覺推理,提供強大支持。