北大/通研院發佈超難基準LooGLE測試長文本理解 大模型全軍覆沒!
長語境理解是自然語言處理領域的關鍵挑戰,尤其是在大型語言模型(LLMs)處理超出其上下文窗口大小的文本時。爲解決這一問題,研究人員開發了LooGLE基準測試,旨在評估LLMs在處理超長文檔(平均19.3k單詞,共776篇,覆蓋多領域)時的長語境理解能力。LooGLE包含7個任務,涵蓋短依賴和長依賴,評估模型對不同長度文本的理解。測試數據來源於2022年後的開源文檔,確保LLMs未在預訓練中接觸,以此更準確評估其語境學習能力。研究發現,商業模型在性能上領先於開源模型,LLMs在短依賴任務上表現良好,但在長依賴任務上存在挑戰。基於檢索的技術在短問題回答中表現突出,而擴展上下文窗口的策略對長語境理解的提升有限。LooGLE提供了評估LLMs長語境理解能力的系統方案,並在GitHub上公開了評估代碼,爲未來模型開發提供指導。