美团LongCat团队推出UNO-Bench基准测试,系统评估多模态模型能力。该基准覆盖44种任务类型和5种模态组合,包含1250个全模态样本(跨模态可解性98%)及2480个增强单模态样本,全面测试模型在单模态与全模态场景下的性能表现。