最好的LooGLE AI工具模型_精选LooGLE资讯

AI资讯

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

长语境理解是自然语言处理领域的关键挑战，尤其是在大型语言模型（LLMs）处理超出其上下文窗口大小的文本时。为解决这一问题，研究人员开发了LooGLE基准测试，旨在评估LLMs在处理超长文档（平均19.3k单词，共776篇，覆盖多领域）时的长语境理解能力。LooGLE包含7个任务，涵盖短依赖和长依赖，评估模型对不同长度文本的理解。测试数据来源于2022年后的开源文档，确保LLMs未在预训练中接触，以此更准确评估其语境学习能力。研究发现，商业模型在性能上领先于开源模型，LLMs在短依赖任务上表现良好，但在长依赖任务上存在挑战。基于检索的技术在短问题回答中表现突出，而扩展上下文窗口的策略对长语境理解的提升有限。LooGLE提供了评估LLMs长语境理解能力的系统方案，并在GitHub上公开了评估代码，为未来模型开发提供指导。

14.3k 2 天前