AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

北大/通研院發佈超難基準LooGLE測試長文本理解 大模型全軍覆沒!

長語境理解是自然語言處理領域的關鍵挑戰,尤其是在大型語言模型(LLMs)處理超出其上下文窗口大小的文本時。爲解決這一問題,研究人員開發了LooGLE基準測試,旨在評估LLMs在處理超長文檔(平均19.3k單詞,共776篇,覆蓋多領域)時的長語境理解能力。LooGLE包含7個任務,涵蓋短依賴和長依賴,評估模型對不同長度文本的理解。測試數據來源於2022年後的開源文檔,確保LLMs未在預訓練中接觸,以此更準確評估其語境學習能力。研究發現,商業模型在性能上領先於開源模型,LLMs在短依賴任務上表現良好,但在長依賴任務上存在挑戰。基於檢索的技術在短問題回答中表現突出,而擴展上下文窗口的策略對長語境理解的提升有限。LooGLE提供了評估LLMs長語境理解能力的系統方案,並在GitHub上公開了評估代碼,爲未來模型開發提供指導。

13.4k 12-29
北大/通研院發佈超難基準LooGLE測試長文本理解 大模型全軍覆沒!

模型

查看更多

Gemini 2.0 Flash

Google

Gemini 2.0 Flash

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

1k

上下文長度

Gemini Diffusion

Google

Gemini Diffusion

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

Gemini 1.5 Pro

Google

Gemini 1.5 Pro

$17.5

輸入tokens/百萬

$70

輸出tokens/百萬

2.1k

上下文長度

AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商務合作網站地圖