研究警告AI語言模型極限:超8K上下文性能腰斬,概念推理成難關
慕尼黑大學、慕尼黑機器學習中心與Adobe Research近日聯合發佈的研究顯示,包括GPT-4o、Gemini1.5Pro和Llama-3.3-70B在內的12款頂尖AI語言模型,在長文本概念推理任務中面臨顯著性能衰減。儘管這些模型均支持至少128,000個標記的上下文處理,但其深層邏輯關聯能力仍存在根本性侷限。 研究團隊開發的NOLIMA(無文字匹配)基準測試系統,通過刻意規避關鍵詞重複的設計,揭示AI模型在概念聯結上的脆弱性。例如,當文本描述“Yuki住在Semperoper旁”時,模型需先理解“Semperoper位於德累斯頓”的常識