Best 模型评测 AI Tools & Models - Premium 模型评测 News

AI News

价格狂降75%!DeepSeek V4宣告永久保留折扣，登顶全球AI性价比榜首

DeepSeek宣布其旗舰大模型V4-Pro永久降价75%，原限时2.5折优惠转为永久定价。第三方评测显示，该模型凭借此降价登顶全球AI性价比榜首，性能碾压美系竞品，凸显中国AI在成本与效率上的绝对优势。

李飞飞团队 ESI-Bench 深度解读：让 AI 从“旁观者”进化为“行动者”

李飞飞团队发布ESI-Bench，被誉为具身智能界的“ImageNet”。该基准揭示当前大模型在物理空间交互中的致命短板。与传统依赖最优视角图片的被动感知评测不同，ESI-Bench聚焦于模型的空间认知能力，而非单纯视觉识别，为具身智能设立了新标杆。

11.3k 16 minutes ago

通义实验室发布Qwen3.7-Max，以“正交解耦”技术斩获多项评测国内第一

通义实验室发布新一代AI Agent基座大模型Qwen3.7-Max，在多项评测中获国内第一，旨在解决智能体长链路运行中断、崩溃问题。在未知硬件ZW-M890L PPU的极限压力测试中，该模型无文档和先验数据，凭运行时反馈展现长程策略连贯性与泛化力，连续运行35小时、1158次工具调用零中断。

16.5k 1 hours ago

视觉大模型遭遇滑铁卢：首个中国古文字OCR评测基准开源

腾讯混元大模型联合故宫博物院等机构推出“Chronicles-OCR”，这是业界首个覆盖汉字“七体之变”演化轨迹的古文字感知评测基准。数据集由专家多层交叉标注，包含2800张图像，旨在测试AI对甲骨文等古文字的识别能力，推动人工智能理解汉字从龟甲刻痕到现代代码的完整演变。

60.3k 6 minutes ago

AI Products

FlagEval

模型评测平台

AI模型

11.5k

SuperCLUE

领先的AI评测基准，衡量和比较AI模型性能。

AI模型

11.8k

LMSYS Chatbot Arena Leaderboard

大型语言模型 (LLM) 性能评测的众包开放平台

AI聊天机器人

20.6k

Awesome-Domain-LLM

收集和梳理垂直领域的开源模型、数据集及评测基准

AI模型

12.6k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

价格狂降75%!DeepSeek V4宣告永久保留折扣，登顶全球AI性价比榜首

李飞飞团队 ESI-Bench 深度解读：让 AI 从“旁观者”进化为“行动者”

通义实验室发布Qwen3.7-Max，以“正交解耦”技术斩获多项评测国内第一

视觉大模型遭遇滑铁卢：首个中国古文字OCR评测基准开源

AI Products

FlagEval

SuperCLUE

LMSYS Chatbot Arena Leaderboard

Awesome-Domain-LLM

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

wan2.5-i2i-preview

qwen-image-edit

YugoGPT Florida_Q8_0 GGUF

Sarashina2.2 1b Instruct V0.1

GRM Llama3.2 3B Rewardmodel Ft

MiniCPM 1B Sft Bf16

Tao 8k

14B DPO Alpha

Skywork 13B Base

XVERSE 7B Chat

Vi Mrc Large