Best 大模型评测 AI Tools & Models - Premium 大模型评测 News

AI News

美国大模型抄了DeepSeek作业：性能没赢、价格更贵，却精准卡住了美国企业的合规刚需

OpenAI前CTO穆拉蒂的初创公司发布首款模型Inkling，其架构与数据大量借鉴DeepSeek和月之暗面等中国模型，却在评测中表现落后且价格更高。这家中美角色“互换”的公司估值竟高达120亿美元，反差巨大。

节省 40 亿元还是触发监管？微软拟为Copilot引入国产AI模型陷两难

微软正评估将月之暗面开发的Kimi K3开源模型引入Copilot服务，以大幅降低AI运营成本。作为全球参数规模最大的开源模型，Kimi K3在编程等多项评测中性能媲美顶尖模型，有望替代此前主要依赖的OpenAI与Anthropic技术，重塑底层架构。微软内部测算显示，此举每年最高可节省6亿美元。

15.6k 3 hours ago

商汤开源SenseNova-Vision统一视觉大模型，单模型横扫四大核心视觉任务

商汤发布并开源“日日新SenseNova-Vision”视觉大模型，核心是将视觉能力原生融入通用基础模型，打破传统将检测、分割等专家模型打包的割裂模式。该模型以单模型在多项评测中实现了四大领域的性能碾压，标志着视觉任务向统一原生架构的关键升级。

17.6k 2 hours ago

商汤开源SenseNova-Vision统一视觉大模型，单模型横扫四大核心视觉任务

百川智能发布M4 模型，实现“真人医生”式主动问诊

百川智能与清华团队发布医疗大模型Baichuan-M4，在权威HealthBench评测中包揽三项子榜单第一，表现超越GPT-5.5。其核心突破在于彻底变革交互模式，实现更贴近临床的智能诊疗能力。

16.8k 6 hours ago

AI Products

LMSYS Chatbot Arena Leaderboard

大型语言模型 (LLM) 性能评测的众包开放平台

AI聊天机器人

22.5k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

美国大模型抄了DeepSeek作业：性能没赢、价格更贵，却精准卡住了美国企业的合规刚需

节省 40 亿元还是触发监管？微软拟为Copilot引入国产AI模型陷两难

商汤开源SenseNova-Vision统一视觉大模型，单模型横扫四大核心视觉任务

百川智能发布M4 模型，实现“真人医生”式主动问诊

AI Products

LMSYS Chatbot Arena Leaderboard

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen3-max

qwen-image-edit

YugoGPT Florida_Q8_0 GGUF

MiniCPM 1B Sft Bf16

14B DPO Alpha

Skywork 13B Base

XVERSE 7B Chat