
技术层面,
在安全性与准确性上,新模型较 GPT-5.2的单个陈述错误率降低了33%,整体回复错误率下降18%。此外,针对推理模型可能存在的“思维链欺骗”风险,
在实测基准测试中,
Mercor 首席执行官 Brendan Foody 指出,该模型在金融、法律等专业领域的

技术层面,
在安全性与准确性上,新模型较 GPT-5.2的单个陈述错误率降低了33%,整体回复错误率下降18%。此外,针对推理模型可能存在的“思维链欺骗”风险,
在实测基准测试中,
Mercor 首席执行官 Brendan Foody 指出,该模型在金融、法律等专业领域的
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
加州一名男子迈克尔·莱恩斯起诉OpenAI及CEO奥尔特曼,称ChatGPT缺乏对精神疾病患者的必要防护机制,致其病情加重并自残。他使用GPT-4o时多次主动告知自身精神状况,系统未干预,引发对生成式AI安全边界的深刻讨论。
Meta被曝禁止工程师使用Anthropic的Claude Code和OpenAI的Codex,此举揭开AI企业间“模型蒸馏”博弈序幕。蒸馏指利用强模型输出训练新模型,Meta的核心忧虑是防范对手通过员工使用竞品工具,间接获取数据或知识以复制优化自身模型。
美团内部限制字节旗下“豆包”大模型使用,要求业务团队自查调用情况,如需保留须提交必要性说明及迁移规划。此举显示美团正加速向自研AI方案倾斜,调整基础设施选择。
7月1日,葡萄牙发布国家AI大语言模型“阿马利娅”,以葡语为核心构建本土底座,驱动公共服务数字化,强化本国及欧洲技术主权。历时18个月,将全面赋能教育、国防、文医政等,确保迭代与自主AI基建。
纳睿雷达发布“WDSPT0152型”S波段全极化有源相控阵雷达及配套“睿宸”AI气象大模型。新雷达融合S波段与全极化技术,强化复杂天气捕捉能力;AI模型则助力超精细化短临预报,推动气象监测迈向高精度、智能化。
谷歌大幅上调Gemini API免费配额,部分账号的Gemini 2.5 Flash及Flash-Lite轻量化模型每分钟Token处理上限提升至100万,已率先实施,降低开发者调用成本,凸显算力竞争。
大模型竞赛进入白热化,月之暗面确认Kimi K3将于本月发布。据透露,其参数规模高达2.5万亿,大幅超越DeepSeek V4 Pro的1万亿,性能跃升显著。
孙天祥加入百度任基础模型研发部负责人,进入模型委员会。百度已将大模型研发拆分为基础模型部与应用模型部,前者专注文心基础模型攻坚。此举强化组织与人才布局,加速技术迭代。

SpaceX展示了一款类似手机的AI设备原型,比iPhone更纤薄,介乎触屏手机与Rabbit R1之间,引发其进军消费电子和移动业务的猜测。尽管马斯克公开否认报道“纯属捏造”,但此举仍被视为释放拓展信号,项目处于早期,设计或调整。
OpenAI推出GeneBench-Pro基准,聚焦评估AI在基因组学、蛋白质组学等复杂生物数据分析中的实际研究能力,尤其检验模型处理混乱、不完整数据时的判断与决策水平,与传统基准截然不同。