DeepMindが新たなベンチマークMichelangeloを発表:長文脈LLMの推論における欠点を明らかに
近年、超長文脈ウィンドウを持つ大規模言語モデル(LLM)が注目を集めています。これらのモデルは、数十万、場合によっては数百万ものトークンを1つのプロンプトで処理でき、開発者にとって多くの新しい可能性を切り開きます。しかし、これらの長文脈LLMは、受信した大量の情報をどの程度うまく理解し、活用できるのでしょうか?この問題に対処するため、Google DeepMindの研究者らは、長文脈推論能力を評価することを目的としたMichelangeloという新しいベンチマークを発表しました。研究結果は、