Fiction.Liveの最近のベンチマークテストでは、Gemini2.5Proが複雑なストーリーや背景を理解し再現する能力で、OpenAIのo3モデルを上回ることが示されました。このテストは従来の「針の中から針を探す」ようなタスクを超えており、モデルが膨大な文脈の中で深い意味や背景依存情報を処理する能力に焦点を当てています。

Googleの大規模モデルGemini

テストデータによると、文脈ウィンドウ長が192,000トークン(約144,000単語)に達した場合、o3モデルのパフォーマンスが急激に低下しましたが、Gemini2.5Proの6月プレビュー版(preview-06-05)は同じ条件下で90%以上の正確さを維持しました。

注目に値するのは、OpenAIのo3モデルは8Kトークン以下では完璧な正確さを保っていますが、文脈が16K~60Kに拡大すると揺れ始め、最終的に192Kで「クラッシュ」した一方で、Gemini2.5Proは8Kで若干の減少こそありますが、192Kまでその性能を安定させたことです。

QQ20250609-085845.png

一方で、Gemini2.5Proは最大で100万マークの文脈ウィンドウをサポートできるとされていますが、現在のテストではその理論的な限界にはまだ到達していません。また、o3モデルの最大ウィンドウは200Kであり、Metaが発表したLlama4Maverickは最大1千万マークの文脈を処理できるとされていますが、実際のタスクでは重要な情報を多く無視しており、期待された結果には届いていません。

深い理解力は「パラメータを積み増すだけ」では得られないものだと、DeepMindの研究者Nikolay Savinov氏は指摘しています。「情報が多いほど良いわけではなく、注意機構の配分が課題となる」と述べ、大規模な文脈を扱う際に、特定の情報を注目するときには他の部分を必然的に無視してしまうため、全体的なパフォーマンスが低下する可能性があるとしています。彼は、ユーザーが大規模な文書をモデルで処理する際には、関係のないページを削除し、冗長な情報を減らすことで、モデルの処理品質を向上させるよう勧めています。

総合的に見て、Fiction.Liveのベンチマークテストは言語モデルの能力評価においてより現実的で、実際の応用シーンに近い方法を提供しています。Gemini2.5Proは今回のテストを通じて、長いテキストの理解における強力な実力を示しました。そして業界に示唆しているのは、今後の大型モデル競争が、「誰のウィンドウが大きいのか」ではなく、「誰がより賢く使うのか」に焦点を移すべきだということです。