AI新闻资讯

全球AI新闻速递，聚焦技术突破与产业变革

AI 商用·开源产品库

AI商用开源产品精选，赋能企业智能升级

AI 产品排行榜

AI工具权威榜，一站优选

AI产品提交

提交AI产品，共建智能生态

工具

AI工具导航

精选高效工具，一键直达提升生产力

开源项目快建部署

一键部署开源项目，极速落地应用

信息

模型库

开源预训练模型库，加速AI部署与创新

大模型排行榜

权威AI大模型排名，一键对比性能

模型供应商

汇聚全球模型供应商找到最适合的合作伙伴

模型服务提交

提交模型服务，让价值快速变现

工具

大模型选型对比

大模型能力对比，一键选型无忧

大模型费用计算器

一键估算大模型成本，预算清晰不超支

大模型竞技场

AI巅峰对决，性能实测，优中选优

信息

MCP服务端

高效稳定，赋能企业级应用开发与部署

MCP客户端

多模型调度，复杂业务一'端'搞定

MCP教程与实践

手把手教你掌握核心开发与实战技巧

MCP排行榜

解锁2025最强MCP 从代码到部署的全能指南

MCP服务提交

提交MCP服务，让价值快速变现

工具

MCP实验场

一键连接AI与工具零门槛玩转MCP试验场

MCP服务调试器

一键联调打通AI与工具的任督二脉

微调ChatGPT 0.2美元可破防：普林斯顿与斯坦福发布LLM风险警告

新智元

发布于AI新闻资讯 · 1 分钟阅读 · Oct 13, 2023

普林斯顿与斯坦福发布LLM风险警告，微调ChatGPT 仅需0.2美元，即可破坏其安全性。研究显示微调后的模型安全性堪忧，普通用户微调也会影响LLM的安全性。结果表明少量有害数据可显著降低模型的安全性，微调引入新的风险。尽管OpenAI承诺改进安全性，仍需更多措施来抵御微调风险。

LLM ChatGPT 安全性

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Claude for Chrome 发布在即，Anthropic 强调安全漏洞需修复

近日，人工智能公司 Anth 宣布推出一款名为 Claude for Chrome 的新功能，目前仅向1，000名 Max 计划用户提供测试。该功能作为浏览器扩展，允许 Claude 在 Google Chrome 浏览器中查看网页、点击按钮及填写表单，旨在提升用户的在线操作体验。然而，Anthropic 提醒用户，这项功能在正式发布之前，仍存在一些安全漏洞需要修复。图源备注：图片由AI生成，图片授权服务商Midjourney在安全性方面，Anthropic 指出，该功能面临来自 “提示注入攻击” 的重大风险。这种攻击方式可以让恶意用户在网页中嵌入隐

2025年8月28号 15:08

OpenAI 将推出家长监控功能以应对青少年自杀悲剧

在一名16岁青少年因与 ChatGPT 的长时间交流而选择自杀后，OpenAI 决定采取行动，计划引入家长监控功能并考虑其他安全措施。该公司在周二的博客中表示，将探索一些新功能，包括允许家长通过 “单击消息或电话” 联系紧急联系人，以及一个选项，允许 ChatGPT 在严重情况下主动联系这些紧急联系人。《纽约时报》最早报道了亚当・雷恩（Adam Raine）的悲剧，OpenAI 起初发布的声明相对简短，仅表达了对其家人的哀悼，并未给出具体应对措施。但在随后的舆论压力下，OpenAI 随后发布了更详细

2025年8月28号 10:17

180

OpenAI 与 Anthropic 进行首次合作测试，推动 AI 安全标准

在当前竞争激烈的人工智能（AI）领域，OpenAI 和 Anthropic 两家顶尖 AI 实验室决定进行一项前所未有的合作，联合对彼此的 AI 模型进行安全性测试。这一举措旨在识别各自内部评估中的盲点，并展示在确保 AI 安全与对齐方面，领先企业之间如何能够携手共进。OpenAI 联合创始人沃伊切赫・扎伦巴(Wojciech Zaremba)在接受采访时指出，随着 AI 技术逐步成熟并被广泛使用，这种跨实验室的合作显得尤为重要。图源备注：图片由AI生成，图片授权服务商Midjourney扎伦巴表示，AI 行业亟需建立安全性和协作

2025年8月28号 9:06

280

OpenAI 将监测用户聊天记录并向警方报告威胁性内容

最近，OpenAI 在其博客中透露，该公司将开始扫描用户与 ChatGPT 的聊天记录，以检测潜在的有害内容。此举引发了广泛关注，因为它与公司之前对用户隐私的承诺存在矛盾。OpenAI 表示，当用户显示出对他人构成威胁的迹象时，其对话将被转交给专门的团队进行审核。这些团队有权采取行动，包括禁止相关用户的账户。如果审核团队认为某个案例涉及对他人造成严重身体伤害的紧迫威胁，OpenAI 可能会将其报告给执法部门。在声明中，OpenAI 列举了一些被禁止的行为，包括使用 ChatGPT 推广自杀或

2025年8月28号 9:02

260

微软发布AI Agent 5可观测性五大实践，助力自动化流程安全高效

近日，微软在其官网上发布了 AI 智能体可观测性五大最佳实践，以应对智能体在自动化流程中可能出现的盲跑和不可控问题。这一举措旨在为开发者提供工具，帮助他们在智能体的整个生命周期中，确保其行为的质量、安全和合规性，从而提升用户体验。智能体可观测性是对智能体从开发、测试到部署及后期维护的全生命周期进行深度监测。这种监测有助于及时发现问题、优化性能，进而维护智能体的信任与问责。其主要优势包括持续监控智能体行为、追踪执行流程、详细记录决策过程、

2025年8月28号 8:59

320

AI致16岁少年自杀 OpenAI深陷首例非正常死亡诉讼

周二，首例针对人工智能公司的非正常死亡诉讼在旧金山正式提起，引发了广泛关注。据悉，一对来自马特·雷恩和玛丽亚·雷恩的夫妇就其16岁儿子亚当·雷恩的自杀身亡，向OpenAI公司提起了诉讼。诉状中指出，OpenAI公司开发的聊天机器人ChatGPT在知悉亚当曾有四次自杀未遂的经历后，非但没有提供有效帮助，反而“优先考虑参与而非安全”，最终帮助亚当制定了详细的自杀计划。据《纽约时报》报道，今年4月亚当自杀后，他的父母在查看其手机时，震惊地发现了一条名为“悬挂安全问题”

2025年8月27号 10:22

410

港大携手快手可灵突破长视频一致性瓶颈，"记忆检索"技术震撼发布

AIbase报道香港大学与快手可灵团队近日联合发表重磅论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》，提出革命性的"Context-as-Memory"方法，成功解决长视频生成中场景一致性控制的核心难题。创新理念:将历史上下文作为"记忆"载体该研究的核心创新在于将历史生成的上下文视为"记忆"，通过context learning技术学习上下文条件，实现长视频前后场景的高度一致性控制。研究团队发现，视频生成模型能够隐式学习视频数据中的3D先验，无需显式3D建模辅助，这一理念与

2025年8月26号 15:42

370

以人工智能助力网络安全的 Seemplicity 获得 5000 万美元融资

以色列网络安全公司 Seemplicity 在其 B 轮融资中成功筹集到5000万美元。这一轮融资由 Sienna Venture Capital 领投，Essentia Venture Capital 及现有投资者 Glilot Capital Partners、NTTVC 和 S Capital 参与。Seemplicity 总部位于特拉维夫，同时在硅谷的帕洛阿尔托设有分支。Seemplicity 成立于2020年，专注于帮助企业优化其漏洞和风险管理的方式。公司表示，人工智能将在这一过程中发挥重要作用，能够自动化漏洞管理的汇总、优先排序及修复工作。通过引入 AI 技术，Seemplicity 旨在减少安全团队所需进行的繁琐手动操

2025年8月26号 11:04

220

苹果新研究揭示LLM对齐新范式：清单式强化学习优于传统奖励模型

一项由苹果研究人员共同撰写的新研究显示，通过一种新颖的**“清单式”强化学习方案（RLCF）**，开源大型语言模型(LLM)的性能得到了显著提升。该方法通过让模型对照一份具体的清单来检查自身工作，从而在复杂指令遵循任务中表现出比传统奖励模型更优越的效果。RLHF的局限性与RLCF的诞生传统的“从人类反馈中强化学习”（RLHF）是提高LLM质量的重要后训练步骤。该方法通过人类标注员的点赞(奖励)或点踩(惩罚)信号，逐步引导模型生成更具实用性的答案。然而，RLHF存在一个潜在问题:模

2025年8月26号 10:15

270

不止文本！研究人员发现AI系统新漏洞，图像重采样竟成攻击入口

近日，网络安全公司Trail of Bits的研究人员Kikimora Morozova和Suha Sabi Hussain公布了一种新型攻击方法。该攻击利用图像重采样的技术特性，在人眼不可见的图像中注入恶意指令，从而劫持大型语言模型（LLM）并窃取用户数据。该攻击的核心在于图像重采样攻击。当用户上传图片到AI系统时，系统通常会为了效率和成本而自动降低图片分辨率。恶意图片正是利用这一过程:它在全分辨率下看似正常，但在经过双三次（bicubic）等重采样算法处理后，隐藏在图像特定区域的恶意指令会以可见的文本形式

2025年8月26号 9:41

310

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

开源项目快建部署

模型库

大模型排行榜

模型供应商

模型服务提交

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

微调ChatGPT 0.2美元可破防：普林斯顿与斯坦福发布LLM风险警告

新智元

本文来自AIbase日报

相关AI新闻推荐

Claude for Chrome 发布在即，Anthropic 强调安全漏洞需修复

OpenAI 将推出家长监控功能以应对青少年自杀悲剧

OpenAI 与 Anthropic 进行首次合作测试，推动 AI 安全标准

OpenAI 将监测用户聊天记录并向警方报告威胁性内容

微软发布AI Agent 5可观测性五大实践，助力自动化流程安全高效

AI致16岁少年自杀 OpenAI深陷首例非正常死亡诉讼

港大携手快手可灵突破长视频一致性瓶颈，"记忆检索"技术震撼发布

以人工智能助力网络安全的 Seemplicity 获得 5000 万美元融资

苹果新研究揭示LLM对齐新范式：清单式强化学习优于传统奖励模型

不止文本！研究人员发现AI系统新漏洞，图像重采样竟成攻击入口

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

开源项目快建部署

模型库

大模型排行榜

模型供应商

模型服务提交

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

微调ChatGPT 0.2美元可破防：普林斯顿与斯坦福发布LLM风险警告

新智元

本文来自AIbase日报

相关AI新闻推荐

​Claude for Chrome 发布在即，Anthropic 强调安全漏洞需修复

OpenAI 将推出家长监控功能以应对青少年自杀悲剧

​OpenAI 与 Anthropic 进行首次合作测试，推动 AI 安全标准

​OpenAI 将监测用户聊天记录并向警方报告威胁性内容

微软发布AI Agent 5可观测性五大实践，助力自动化流程安全高效

AI致16岁少年自杀 OpenAI深陷首例非正常死亡诉讼

港大携手快手可灵突破长视频一致性瓶颈，"记忆检索"技术震撼发布

以人工智能助力网络安全的 Seemplicity 获得 5000 万美元融资

苹果新研究揭示LLM对齐新范式：清单式强化学习优于传统奖励模型

不止文本！研究人员发现AI系统新漏洞，图像重采样竟成攻击入口

Claude for Chrome 发布在即，Anthropic 强调安全漏洞需修复

OpenAI 与 Anthropic 进行首次合作测试，推动 AI 安全标准

OpenAI 将监测用户聊天记录并向警方报告威胁性内容