Best 编程基准测试 AI Tools & Models - Premium 编程基准测试 News

AI News

月之暗面正式发布Kimi K2. 6 模型，多项指标对标全球顶尖大模型

月之暗面发布并开源旗舰模型Kimi K2.6，在编程、长程任务和多智能体协作方面实现显著提升。该模型已在官网、APP、API及编程助手上线，并在多项权威测试中表现优异，包括高难度基准Humanitys Last Exam等。

阿里巴巴发布 Qwen3.6-Max-Preview：编程智能新标杆

阿里巴巴发布Qwen3.6-Max-Preview预览版模型，用户可通过QwenStudio对话或阿里云百炼API调用。相比Qwen3.6-Plus，新模型在智能体编程、世界知识和指令遵循等方面显著提升，并在六项主要编程基准测试中表现优异。

67k 3 minutes ago

阿里开源 Qwen3.6-35B-A3B:30亿激活参数实现编程能力跨越式升级

阿里巴巴千问团队开源稀疏混合专家模型Qwen3.6-35B-A3B，总参数量350亿，激活参数仅30亿。该模型以低计算成本在多项编程基准测试中超越Qwen3.5-27B，并显著领先前代Qwen3.5-35B-A3B，实现轻量级模型在智能体编程领域的关键突破。

240.3k just now

Claude Opus 4. 7 正式发布：比聪明更重要的，是靠谱

Anthropic发布Claude Opus4.7模型，虽非最强版本，但重点提升可靠性而非单纯追求智能。该模型在编程基准测试中表现优异，引发广泛关注。

20.7k 15 hours ago

AI Products

Kimi k2

强大的开源Kimi K2聊天平台，通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI，成本降低95%。

聊天机器人

12.5k

Sky-T1-32B-Preview

一款在推理和编程基准测试中表现与o1-preview相当的推理模型。

AI模型

9.4k

Models

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Grok Code Fast 1

Xai

$1.4

Input tokens/M

$10.5

Output tokens/M

256

Context Length

GPT-5

Openai

$8.75

Input tokens/M

$70

Output tokens/M

400

Context Length

Claude Opus 4.1

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

GLM-4.5-X

Chatglm

Input tokens/M

$16

Output tokens/M

128

Context Length

Grok-4 Heavy

Xai

Input tokens/M

Output tokens/M

Context Length

Gemini Diffusion

Google

Input tokens/M

Output tokens/M

Context Length

o4-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

o3

Openai

$14

Input tokens/M

$56

Output tokens/M

200

Context Length

GPT-4.1

Openai

$14

Input tokens/M

$56

Output tokens/M

Context Length

Claude 3 Haiku

Anthropic

$1.75

Input tokens/M

$8.75

Output tokens/M

200

Context Length

kimi-k2-0905-preview

Moonshot

Input tokens/M

$16

Output tokens/M

262

Context Length

ERNIE-4.5-VL-424B-A47B-Paddle

Baidu

Input tokens/M

Output tokens/M

Context Length

GLM-4

Chatglm

$100

Input tokens/M

$100

Output tokens/M

128

Context Length

Gemini 1.0 Pro

Google

$3.5

Input tokens/M

$10.5

Output tokens/M

Context Length

Yi-6B-Chat

01-ai

Input tokens/M

Output tokens/M

Context Length

Baichuan-7B

Baichuan

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

月之暗面正式发布Kimi K2. 6 模型，多项指标对标全球顶尖大模型

阿里巴巴发布 Qwen3.6-Max-Preview：编程智能新标杆

阿里开源 Qwen3.6-35B-A3B:30亿激活参数实现编程能力跨越式升级

Claude Opus 4. 7 正式发布：比聪明更重要的，是靠谱

AI Products

Kimi k2

Sky-T1-32B-Preview

Models

Claude 3 Opus

Claude Haiku 4.5

Claude Sonnet 4.5

Grok Code Fast 1

GPT-5

Claude Opus 4.1

GLM-4.5-X

Grok-4 Heavy

Gemini Diffusion

o4-mini

o3

GPT-4.1

Claude 3 Haiku

kimi-k2-0905-preview

ERNIE-4.5-VL-424B-A47B-Paddle

GLM-4

Gemini 1.0 Pro

Yi-6B-Chat

Baichuan-7B

MobileLLM R1 140M Base

DeepSeek R1 0528 Qwen3 8B GGUF

AceReason Nemotron 14B GGUF

Granite 8b Code Instruct 4k GGUF

Phi 1 Gguf

Phi 1

AI News

月之暗面正式发布Kimi K2. 6 模型，多项指标对标全球顶尖大模型

​阿里巴巴发布 Qwen3.6-Max-Preview：编程智能新标杆

阿里开源 Qwen3.6-35B-A3B:30亿激活参数实现编程能力跨越式升级

Claude Opus 4. 7 正式发布：比聪明更重要的，是靠谱

AI Products

Kimi k2

Sky-T1-32B-Preview

Models

Claude 3 Opus

Claude Haiku 4.5

Claude Sonnet 4.5

Grok Code Fast 1

GPT-5

Claude Opus 4.1

GLM-4.5-X

Grok-4 Heavy

Gemini Diffusion

o4-mini

o3

GPT-4.1

Claude 3 Haiku

kimi-k2-0905-preview

ERNIE-4.5-VL-424B-A47B-Paddle

GLM-4

Gemini 1.0 Pro

Yi-6B-Chat

Baichuan-7B

MobileLLM R1 140M Base

DeepSeek R1 0528 Qwen3 8B GGUF

AceReason Nemotron 14B GGUF

Granite 8b Code Instruct 4k GGUF

Phi 1 Gguf

Phi 1

阿里巴巴发布 Qwen3.6-Max-Preview：编程智能新标杆