長文本理解新王者?Gemini2.5Pro 擊敗 o3領跑 Fiction.Live 基準測試
在最近的 Fiction.Live 基準測試中,Gemini2.5Pro 在理解和再現複雜故事和背景方面表現出色,領先於競爭對手 OpenAI 的 o3模型。這項測試遠超傳統的“大海撈針”式任務,專注於模型在海量上下文中處理深層語義和背景依賴信息的能力。據測試數據顯示,在上下文窗口長度達到192,000個詞條(約14.4萬個單詞)時,o3模型性能急劇下滑,而 Gemini2.5Pro 的6月預覽版(preview-06-05)在同一條件下依然保持了超過90% 的準確率。值得注意的是,OpenAI 的 o3模型在8K 代幣以下保持完美準確率,但當上下文擴展至1