Meta 推出全新 Multi-IF 基准,挑战多轮多语言指令遵循能力
Meta 最近发布了一项全新的基准测试,名为 Multi-IF,旨在评估大语言模型(LLM)在多轮对话和多语言环境下的指令遵循能力。这一基准覆盖了八种语言,包含4501个三轮对话任务,重点探讨了当前模型在复杂多轮和多语言场景中的表现。在现有的评估标准中,大多数集中于单轮对话和单语言任务,难以全面反映模型在实际应用中的表现。而 Multi-IF 的推出正是为了填补这一空白。研究团队通过将单轮指令扩展为多轮指令,生成了复杂的对话场景,并确保每一轮指令在逻辑上连贯、递进。此外,