DeepMind推新基準Michelangelo:揭示長上下文 LLM推理缺陷
最近,超長上下文窗口的大型語言模型(LLMs)成爲了人們討論的熱點。這些模型能夠在一個提示中處理數十萬甚至上百萬個標記,爲開發者開啓了許多新的可能性。不過,這些長上下文 LLM 到底能多好地理解和利用所接收到的大信息呢?爲了解決這個問題,谷歌 DeepMind 的研究人員推出了名爲 Michelangelo 的新基準,旨在評估長上下文推能力。研究結果表明,儘管當前的頂尖模型在從大量上下文數據中提取信息方面取得了一定進展,但在需要推理和理解數據結構的任務上仍然存在困難。隨着長上