阿里推多模態大模型mPLUG-Owl3 4秒看完2小時電影
阿里團隊最新發布的mPLUG-Owl3是一個通用多模態大模型,其核心能力是對長圖像序列的理解。通過引入超注意力模塊,mPLUG-Owl3能夠高效處理視覺和語言信息,實現對圖片、視頻等多模態數據的深入理解和交流。該模型在推理效率、圖像處理能力、以及多模態知識應用上均取得了顯著突破,尤其是在視頻理解領域,能夠在4秒內“看”完一部2小時的電影,並準確回答與之相關的問題。mPLUG-Owl3採用了輕量化的Hyper Attention模塊,優化了模型訓練和推理效率,使其在多個多模態基準測試中達到或超越了當前最優水平。這一技術的發佈不僅標誌着多模態大模型領域的重要進展,也爲未來在圖像、視頻處理及人機交互領域提供了新的可能性。