北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。
2024年9月4日,北京智源人工智能研究院(BAAI)宣布推出全球首个包含文生视频的模型对战评测服务——FlagEval大模型角斗场。这一服务面向用户开放,覆盖了国内外约40款大模型,并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。F
["参数量不是评判大模型的唯一标准,评测集的不同会导致排名差异巨大","主观题比例上升也会影响排名,评测公正性容易受质疑","OpenCompass和FlagEval等第三方评测机构开始受关注","学界认为还应考量模型鲁棒性、安全性等多维度","真正全面有效的评测方式仍在探索中"]
模型评测平台
一个由FlagEval提供的辩论空间