阿里云通义千问大模型推出Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview预览版,已上线大模型竞技场及官方Qwen Chat。两款模型作为新一代旗舰预览版,仅支持“思考模式”,专注高难度逻辑推理与深度计算,预计在阿里云峰会正式发布。
DeepSeek创始人梁文锋近日宣布,新一代旗舰模型DeepSeek V4将于2026年4月下旬发布。在此之前,产品已引入分层模式:快速模式主打日常对话和即时响应,支持图片和文件文字识别;专家模式则专注于复杂逻辑和深度思考,能力更强。
OpenAI发布GPT-5.4模型,实现推理、编程与智能体工作流统一。新增“思维”模式,AI在回答前展示思考计划,用户可实时介入调整。同时增强深度搜索能力。
谷歌在Gemini应用中新增“立即回答”功能,旨在减少用户等待焦虑。用户可一键跳过深度思考环节,快速获取答案。该功能适用于Pro版和思考版模型,按钮旁会显示加载状态。
展示小型语言模型通过自我演化深度思考掌握数学推理能力的研究成果。
深度推理翻译模型,通过长思考链优化神经机器翻译。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
DavidAU
这是一个基于Qwen3-Coder-30B-A3B-Instruct的混合专家模型,拥有540亿参数和100万上下文长度。模型通过三步合并和Brainstorm 40X优化,具备强大的编程能力和通用场景处理能力,特别集成了思考模块,能够在回答前进行深度推理。
Mungert
基于RWKV-7架构的轻量级语言模型,采用flash-linear attention格式,具备多语言支持和深度思考能力,适用于文本生成任务。
Qwen 4B模型的三种量化版本(Q8_0),分别支持64K、128K和256K的上下文长度,专为长文本生成和深度思考任务优化
soob3123
深度思考模型是一款专为分析性任务设计的文本生成模型,能够在处理敏感查询时保持分析中立,确保在有争议的话题上维持事实完整性。
Vijayendra
DeepThinkerv2是一个具备深度数学推理能力的大语言模型,通过递归思考模式和多重验证机制提升解题准确性。
zai-org
GLM-4-Z1-32B-0414是GLM家族新一代开源大语言模型,拥有320亿参数,具备深度思考能力。通过冷启动和扩展强化学习训练,在数学、代码和逻辑任务上表现优异,支持便捷的本地部署。
fla-hub
基于Flash线性注意力机制的RWKV-7 g1模型,支持多语言处理并具备深度思考能力
DevQuasar
DeepHermes是一个基于Llama-3架构的8B参数语言模型预览版,专注于深度思考和长链式推理能力。
这是一个实验性构建的大型语言模型,结合了Dolphin3.0-R1-Mistral-24B与Brainstorm 40x技术,参数量达45B,具备强大的深度推理和思考能力。模型支持32k上下文长度,采用CHATML模板格式,特别优化了推理过程的详细输出。