1300 亿参数,国内首个数学大模型 MathGPT 上线!多项基准赶超 GPT-4

新智元
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
斯坦福大学研究发现,大型语言模型在新闻稿等正式书面沟通中广泛使用。通过分析多个平台的英文文稿,团队利用统计模型检测出大量文本带有AI生成痕迹。
OpenAI在开发者日宣布重大转型,将ChatGPT升级为第三方应用平台,推出Apps SDK,支持开发者构建交互式应用和自主AI代理。这些应用可在ChatGPT聊天界面中运行,具备全屏模式等功能,旨在重塑生态系统,赋能用户任务执行。
第二十一届羊业发展大会上,苏武智慧养羊大模型V1.0发布。该模型由西北农林科技大学陈玉林团队基于Qwen3架构自主研发,是全国首个覆盖羊产业全品类、全链条的垂直大模型,在自主可控平台上训练,采用创新算法架构实现技术突破。
OpenAI推出Codex Alpha抢先体验计划,邀请开发者在DevDay2025正式发布前试用新版Codex模型和功能。该计划旨在让用户提前体验最新AI编程助手技术。
阿里巴巴发布两款30亿参数多模态模型Qwen3-VL-30B-A3B,性能对标GPT-5-Mini等顶尖模型,在数学、图像识别、视频处理等领域表现优异,展现强大竞争力。
Anthropic公司展示其大型语言模型在网络安全领域的突破,最新Claude Sonnet4.5发现软件漏洞概率达5%,较前代Sonnet4的2%显著提升。通过CyberGym测试证明AI能高效增强网络防御,凸显技术进步潜力。
苹果在iOS 26中推出Foundation Models框架,让开发者能本地调用AI大模型,无需联网且免费。这促使一批App快速创新,如儿童启蒙应用《Lil Artist》推出“AI故事机”功能,用户可选角色生成个性化故事,提升用户体验。
快手可灵2.5Turbo模型在AI视频生成领域表现突出,于9月23日推出后,在Artificial Analysis基准测试中,图生视频和文生视频分别获1329和1252分,超越Veo3等对手,登顶全球榜单第一。
微软推出Microsoft365 Premium订阅服务,月费19.99美元,整合Copilot Pro与Microsoft365家庭版功能,对标ChatGPT Plus价格。该服务面向个人用户和专业人士,提供增强的AI办公生产力工具,被定位为当前最强的AI与办公集成解决方案。
Meta推出代码世界模型CWM,通过训练代码与运行环境交互数据,构建内部“世界模型”,使AI不仅学习代码外观,更理解其执行功能,推动代码生成技术从形式到实质的跨越。