最好的LooGLE AI工具模型_精選LooGLE資訊

AI資訊

北大/通研院發佈超難基準LooGLE測試長文本理解大模型全軍覆沒！

長語境理解是自然語言處理領域的關鍵挑戰，尤其是在大型語言模型（LLMs）處理超出其上下文窗口大小的文本時。爲解決這一問題，研究人員開發了LooGLE基準測試，旨在評估LLMs在處理超長文檔（平均19.3k單詞，共776篇，覆蓋多領域）時的長語境理解能力。LooGLE包含7個任務，涵蓋短依賴和長依賴，評估模型對不同長度文本的理解。測試數據來源於2022年後的開源文檔，確保LLMs未在預訓練中接觸，以此更準確評估其語境學習能力。研究發現，商業模型在性能上領先於開源模型，LLMs在短依賴任務上表現良好，但在長依賴任務上存在挑戰。基於檢索的技術在短問題回答中表現突出，而擴展上下文窗口的策略對長語境理解的提升有限。LooGLE提供了評估LLMs長語境理解能力的系統方案，並在GitHub上公開了評估代碼，爲未來模型開發提供指導。

12.4k 5 小時前