美团M17チームはMeeseeksベンチマークを発表し、OpenAIやClaude3.5Sonnetなどの大規模言語モデルの指示遵守能力を評価。モデル出力のフォーマットや内容要件未達問題に対処。....