研究發現:RAG系統中文檔數量影響AI語言模型性能
耶路撒冷希伯來大學的研究人員最近發現,在檢索增強生成(RAG)系統中,即使總文本長度保持不變,處理的文檔數量也會顯著影響語言模型的性能。研究團隊利用MuSiQue驗證數據集中的2,417個問題進行實驗,每個問題鏈接到20個維基百科段落。其中兩到四段包含相關答案信息,其餘段落作爲干擾項。爲研究文檔數量的影響,團隊創建了多個數據分區,逐步將文檔數量從20個減少到最少只保留包含相關信息的2-4個文檔。爲確保總標記數一致,研究人員使用原始維基百科文章的文本擴展了保留