AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。

15.4k 1 天前
智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

智源研究院推出包含文生视频模型对战评测服务:FlagEval大模型角斗场

2024年9月4日,北京智源人工智能研究院(BAAI)宣布推出全球首个包含文生视频的模型对战评测服务——FlagEval大模型角斗场。这一服务面向用户开放,覆盖了国内外约40款大模型,并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。F

16.8k 02-20
智源研究院推出包含文生视频模型对战评测服务:FlagEval大模型角斗场

大模型评测乱象调查:参数规模不代表一切

["参数量不是评判大模型的唯一标准,评测集的不同会导致排名差异巨大","主观题比例上升也会影响排名,评测公正性容易受质疑","OpenCompass和FlagEval等第三方评测机构开始受关注","学界认为还应考量模型鲁棒性、安全性等多维度","真正全面有效的评测方式仍在探索中"]

8.7k 02-23
大模型评测乱象调查:参数规模不代表一切

AI产品

查看更多
FlagEval

FlagEval

模型评测平台

AI模型
10.7k
Debate

Debate

一个由FlagEval提供的辩论空间

学习教育
10.9k
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商务合作网站地图