AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!

长语境理解是自然语言处理领域的关键挑战,尤其是在大型语言模型(LLMs)处理超出其上下文窗口大小的文本时。为解决这一问题,研究人员开发了LooGLE基准测试,旨在评估LLMs在处理超长文档(平均19.3k单词,共776篇,覆盖多领域)时的长语境理解能力。LooGLE包含7个任务,涵盖短依赖和长依赖,评估模型对不同长度文本的理解。测试数据来源于2022年后的开源文档,确保LLMs未在预训练中接触,以此更准确评估其语境学习能力。研究发现,商业模型在性能上领先于开源模型,LLMs在短依赖任务上表现良好,但在长依赖任务上存在挑战。基于检索的技术在短问题回答中表现突出,而扩展上下文窗口的策略对长语境理解的提升有限。LooGLE提供了评估LLMs长语境理解能力的系统方案,并在GitHub上公开了评估代码,为未来模型开发提供指导。

13.4k 12-29
北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!

模型

查看更多

Gemini 2.0 Flash

Google

Gemini 2.0 Flash

$0.7

输入tokens/百万

$2.8

输出tokens/百万

1k

上下文长度

Gemini Diffusion

Google

Gemini Diffusion

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Gemini 1.5 Pro

Google

Gemini 1.5 Pro

$17.5

输入tokens/百万

$70

输出tokens/百万

2.1k

上下文长度

AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商务合作网站地图