月之暗面发布并开源旗舰模型Kimi K2.6,在编程、长程任务和多智能体协作方面实现显著提升。该模型已在官网、APP、API及编程助手上线,并在多项权威测试中表现优异,包括高难度基准Humanitys Last Exam等。
阿里巴巴发布Qwen3.6-Max-Preview预览版模型,用户可通过QwenStudio对话或阿里云百炼API调用。相比Qwen3.6-Plus,新模型在智能体编程、世界知识和指令遵循等方面显著提升,并在六项主要编程基准测试中表现优异。
阿里巴巴千问团队开源稀疏混合专家模型Qwen3.6-35B-A3B,总参数量350亿,激活参数仅30亿。该模型以低计算成本在多项编程基准测试中超越Qwen3.5-27B,并显著领先前代Qwen3.5-35B-A3B,实现轻量级模型在智能体编程领域的关键突破。
Anthropic发布Claude Opus4.7模型,虽非最强版本,但重点提升可靠性而非单纯追求智能。该模型在编程基准测试中表现优异,引发广泛关注。
强大的开源Kimi K2聊天平台,通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI,成本降低95%。
一款在推理和编程基准测试中表现与o1-preview相当的推理模型。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
$7
$35
$21
Xai
$1.4
$10.5
256
Openai
$8.75
$70
400
Chatglm
$8
$16
128
-
Google
$7.7
$30.8
$14
$56
1k
$1.75
Moonshot
$1
262
Baidu
$100
$3.5
32
01-ai
4
Baichuan
facebook
MobileLLM-R1是Facebook推出的高效推理模型系列,专注于数学、编程和科学问题解决。该模型在仅使用约2T高质量标记进行预训练的情况下,在多项基准测试中取得了优异性能。
Sci-fi-vy
DeepSeek-R1-0528是DeepSeek R1系列的小版本升级模型,通过增加计算资源和算法优化显著提升了推理深度和能力,在数学、编程等多个基准测试中表现出色。
unsloth
基于强化学习训练的数学与编程推理模型,在多项基准测试中表现优异
ibm-granite
IBM Granite 8B代码指令模型是一个专注于代码生成和解释的AI模型,支持多种编程语言,在HumanEval等基准测试中表现优异。
professorf
Phi-1是一个专门用于Python编码的13亿参数Transformer模型,提供GGUF格式量化版本,支持CPU+GPU推理。该模型在简单Python编码基准测试HumanEval上的准确率超过50%,专注于基础Python编程任务。
microsoft
Phi-1是一个13亿参数的Transformer模型,专为Python基础编程设计,在HumanEval基准测试中准确率超过50%