DeepSeek V4中文大模型测评中,Pro版以70.98分重夺国内第一,Flash版68.82分紧随其后。测评涵盖数学推理、科学推理、代码生成、智能体任务规划、指令遵循和幻觉控制六维度,标志着国产开源模型技术新突破。
2026年4月24日,OpenAI发布最强AI模型GPT-5.5,实现智能质的飞跃并大幅提升能效。该模型专为智能体时代设计,能自主规划、调用工具并执行多步骤复杂任务,在代码生成、科研和企业自动化中表现卓越。核心突破是从被动响应转向主动执行,显著增强自主性。
上海推出全国首个规划资源AI大模型“云宇星空”,拥有6000亿参数,整合遥感影像、三维实景等数据,旨在打造“AI城市规划师”。该模型采用“1个行业基座+6个垂类智能体”架构,覆盖规划资源与政府治理等领域。
近日发布的“云宇星空大模型(专业版)”是全国规划资源领域首个基础大模型,拥有6000亿参数。它融合遥感影像、三维实景、规划图纸与政务文本,采用“1个行业基座大模型+6个垂类智能体”架构,填补行业空白,推动超大城市治理科学化、智能化。其核心竞争力基于全国首个规划资源专用语料库“坤舆经”。
FiaMind是一款简洁易用的AI思维导图工具,可智能辅助信息整理、灵感创作、规划设计及知识体系构建,全方位提升效率。
多智能体任务规划与推理的基准测试
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Anthropic
$7
$35
200
$21
$105
Alibaba
$4
$16
Baidu
-
32
Xai
$1.4
$10.5
256
$54
$163
Deepseek
$12
128
$8.75
$70
400
$1.75
$14
$1
$15
Chatglm
$8
$2
Huawei
Mungert
RoboBrain2.0-7B是专为机器人领域设计的强大模型,在多智能体任务规划、空间推理和闭环执行等方面有显著提升。
osunlp
WebDreamer 是一个规划框架,能够为现实世界中的网页智能体任务实现高效且有效的规划。
xwm
基于Llama-3.1-8B-Instruct微调的强化学习模型,采用元计划优化技术提升智能体规划能力
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Open Multi-Agent Canvas是一个开源的多智能体聊天界面,支持在动态对话中管理多个智能体,用于旅行规划、研究和通用任务处理。
一个基于MCP协议的多智能体辩论框架,用于代码审查和辩论规划,通过并行执行多个AI代理(如Claude、Codex)进行代码评审,采用确定性评分系统(P0/P1/P2严重性分级)和平台特定规则,最终合并结果生成评审报告。
一个基于AgentKit的多智能体浏览器自动化框架,通过分工协作实现智能网页导航与任务执行,包含任务规划、导航控制、浏览器操作和结果验证四大核心模块。