長テキストの理解における新たな王者?Gemini2.5Proがo3を下してFiction.Liveベンチマークでトップに立つ
最近のFiction.Liveによるベンチマークテストでは、Gemini2.5Proが複雑な物語や背景の理解・再現において優れたパフォーマンスを発揮し、競合相手であるOpenAIのo3モデルを上回りました。このテストは従来の「穴探し」的なタスクではなく、モデルが莫大な文脈の中で深い意味や背景依存情報を取り扱う能力に重点を置いています。テストの結果によると、文脈ウィンドウの長さが192,000単語に達した場合、o3モデルの性能が急激に低下しましたが、