美團LongCat團隊推出UNO-Bench基準測試,系統評估多模態模型能力。該基準覆蓋44種任務類型和5種模態組合,包含1250個全模態樣本(跨模態可解性98%)及2480個增強單模態樣本,全面測試模型在單模態與全模態場景下的性能表現。