Cursor推出第二代自研编程大模型Composer2,性能大幅提升,在内部评测中表现优异,直接对标GPT和Claude。其定价策略极具竞争力,旨在挑战OpenAI等底层模型供应商,标志着AI编程工具领域竞争加剧。
微软AI首席执行官穆斯塔法·苏莱曼宣布推出第二代图像生成模型MAI-Image-2。该模型在权威评测榜单LMArena中表现强劲,跃升至全球第三位,仅次于谷歌Gemini-3.1-flash-image-preview和OpenAI GPT-image-1.5-high-fidelity。相比初代模型,第二代在综合质量上实现显著提升。
DeepSeek V4预计4月发布,官网新职位揭示其战略重心。公司正大规模招聘Agent算法研究员、数据评测专家和基础设施工程师,工作地点在杭州和北京。核心信号是对标Claude,发力AI编程,尤其关注候选人对Rust等编程语言的掌握能力。
研究指出,SWE-bench Verified基准测试可能高估AI编程能力。该测试中被判“通过”的AI代码方案,约一半在实际项目审核中会被拒绝,显示自动化评测与真实工程质量存在明显差距。这一发现对AI辅助软件工程评估标准提出了重要质疑。
面向AI Agent的Coze Skill分享评测平台,汇聚优质技能资源
领先的AI评测基准,衡量和比较AI模型性能。
AI驱动的亚马逊产品评测和使用手册
基于Christopher Frost镜头评测的AI生成评分和摘要
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64