通义实验室发布新一代AI Agent基座大模型Qwen3.7-Max,在多项评测中获国内第一,旨在解决智能体长链路运行中断、崩溃问题。在未知硬件ZW-M890L PPU的极限压力测试中,该模型无文档和先验数据,凭运行时反馈展现长程策略连贯性与泛化力,连续运行35小时、1158次工具调用零中断。
腾讯混元大模型联合故宫博物院等机构推出“Chronicles-OCR”,这是业界首个覆盖汉字“七体之变”演化轨迹的古文字感知评测基准。数据集由专家多层交叉标注,包含2800张图像,旨在测试AI对甲骨文等古文字的识别能力,推动人工智能理解汉字从龟甲刻痕到现代代码的完整演变。
蚂蚁集团百灵大模型今日开源Ling-2.6-flash,推出BF16、FP8、INT4等多量化版本,降低AI部署门槛。该模型总参数104B,激活参数7.4B,此前以匿名身份在国际评测平台表现优异,并针对中英文切换与代码生成完成多轮优化。
SuperCLUE-VLM 2026年4月评测报告显示,中文多模态视觉语言模型领域发生结构性变动。在对全球17款主流大模型深度横评中,国产AI阵营表现强劲,中文理解优势显著,综合得分反超海外顶尖模型。字节跳动Doubao-Seed-2.0-Pro-260215以90.66分登顶总榜,多款国产模型跻身第一梯队。
发现 1500 多种 AI 工具,提供诚实的评测与比较。
面向AI Agent的Coze Skill分享评测平台,汇聚优质技能资源
领先的AI评测基准,衡量和比较AI模型性能。
AI驱动的亚马逊产品评测和使用手册
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64