阿里通義實驗室開源視覺文檔RAG系統ViDoRAG,準確率達79.4%
近日,阿里巴巴通義實驗室宣佈開源其最新研發成果——ViDoRAG,這是一款專爲視覺文檔理解設計的檢索增強生成(RAG)系統。ViDoRAG在GPT-4o模型上的測試顯示,其準確率達到了令人矚目的79.4%,相較傳統RAG系統提升了10%以上。這一突破標誌着視覺文檔處理領域邁出了重要一步,爲人工智能在複雜文檔理解上的應用提供了新的可能性。多智能體框架賦能視覺文檔理解ViDoRAG並非傳統的單一模型,而是採用了創新的多智能體框架設計。據介紹,該系統結合了動態迭代推理代理(Dynamic Iterative Reason