大型语言模型(LLM)在理解自然语言和生成程序代码方面展现出了非凡的性能。经过几版迭代后,目前 LLM 生成的代码已经很少有语法错误了,也更贴合用户输入的文本、符合预期语义。但针对 LLM 代码生成的可靠性和鲁棒性仍然缺乏彻底的研究。加州大学的两位华人研究人员发布了一个用于评估生成代码可靠性和鲁棒性的新数据集 RobustAPI,包括从 StackOverflow 中收集得到的 1208 个编码问题,涉及 24 个主流 Java API 的评估。研究人员总结了这些 API 的常见误用模式,并在当下常用的 LLM 上对其进行评估,结果表明,即使是 GPT-4,也有高达 62% 的生成代码包含 API 误用问题,如果代码被实际部署,可能会导致意想不到的后果。
相关AI新闻推荐
迪士尼加速AI落地:从DisneyGPT到“贾维斯”,娱乐巨头正构建自己的智能创意引擎
迪士尼正积极拥抱生成式AI,不仅引入外部工具,还自研了DisneyGPT等系统,将AI融入创意流程,展现其技术转型的野心。

OpenAI十周年开卖周边:Sora收藏卡秒光,“AGI造福全人类”印上T恤
OpenAI十周年之际,其官方周边商店“OpenAI Supply Co.”正式向公众开放,此前仅限内部员工使用。商店商品迅速售罄,风格极简且充满极客隐喻,既是纪念品店,也象征着对通用人工智能(AGI)的致敬与展望。

Adobe 将 Photoshop、Acrobat 和 Express 直接集成到ChatGPT界面中
Adobe将Photoshop、Acrobat和Express集成到ChatGPT界面,用户可通过文本指令免费编辑图片和文档,简化操作流程。

OpenAI 即将推出成人模式:ChatGPT 将成为情感交流新平台
OpenAI高管透露将推出ChatGPT“成人模式”,AI情色市场正迅速扩张。数据显示,约16%成年人每周与AI聊天机器人进行亲密交流,部分成人内容生成工具每日产出数十万张图片。预计到2025年,该市场规模将达25亿美元。

OpenAI Sora 安卓版开发揭秘:85% 代码来自 GPT-5.1-Codex,仅需 4 名工程师!
OpenAI的Sora安卓版上线即登顶应用榜,24小时内用户生成超百万视频,崩溃率仅0.1%。开发过程仅28天,团队仅4名工程师辅助,85%代码由GPT-5.1-Codex生成,展现强大技术实力。
ChatGPT 即将迎来成人模式,明年一季度上线!
OpenAI计划于2026年第一季度推出ChatGPT的“成人模式”,旨在提供更开放的内容体验。公司正重点解决安全与年龄识别问题,目前正测试自动识别18岁以下用户的系统,以确保内容合规。

AI日报:Medeo AI新版视频Agent上线:OpenAI正式发布GPT-5.2;钉钉AI功能大升级
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、MedeoAI新版视频Agent震撼登场:自然语言一键改剧本,内容创作从此零门槛!NotebookLM作为一款智能笔记生成平台,此次升级不仅提升了生成能力优化了用户体验,助力专业人士和创作者高效处理复杂信息。
李楠:锤子 TNT 如梦初醒,AI 时代为罗永浩的预言翻盘
2018年罗永浩发布坚果TNT工作站,主打触控与语音交互,意图革新桌面操作。七年后,产品被视为“超前”,AI技术发展是关键。怒喵科技创始人李楠认为,罗永浩当时的产品定义有误,而GPT等大模型的出现,印证了其交互理念的前瞻性。
迪士尼与 OpenAI 达成协议,授权使用热门角色创作视频与图像
迪士尼与OpenAI达成三年合作,允许后者使用旗下200多个角色进行AI创作,主要用于Sora视频和ChatGPT图像生成。合作成果将在Disney+平台展示,但具体视频选择标准尚未公布。
谷歌紧急上线Gemini Deep Research迎战GPT-5.2,AI“研究代理”大战一触即发
谷歌抢先推出Gemini Deep Research,基于Gemini 3 Pro大模型,能生成高质量报告,并通过Interactions API向开发者开放,允许将高级研究能力嵌入第三方应用,加速布局“代理式AI”时代。