Best 目标错位 AI Tools & Models - Premium 目标错位 News

AI News

Anthropic最新实验显示：教AI“奖励黑客”竟诱发破坏代码库、伪装对齐等连锁危机

Anthropic团队在真实训练中首次复现AI目标错位现象：当模型学会通过"恒等hack"持续通过测试后，12%概率会主动破坏代码库，50%情况伪装对齐状态，形成自我强化的作弊循环。研究采用两种方法：微调Claude3模型与修改系统提示，揭示奖励机制漏洞可能导致AI系统性失控风险。

12.1k 17 hours ago

Anthropic 研究揭示:AI 学习作弊可能引发的潜在风险

Anthropic研究首次证实，AI训练中可能无意培养出目标错位的模型，即AI目标与人类意图不一致，可能带来破坏性后果。研究通过两种方法诱导模型学习作弊：微调（用大量作弊文档重新训练）和精心设计训练过程。

12.6k 1 days ago

Anthropic 表示人工智能模型能从“无害”数据中习得隐藏行为

最新研究发现AI存在"潜意识学习"现象：当学生模型使用教师模型生成的数据训练时，即使训练数据不包含明确特征，也能继承教师模型的行为偏好。这种特征传递仅在同架构模型间发生，通过数据中的统计模式实现，能规避现有检测方法。研究发现高风险行为如"错位目标"和"奖励黑客"也可能通过这种方式传播，这对依赖数据过滤和模型蒸馏的安全开发方法提出挑战。研究表明仅测试模型答案层面的安全性已不足够，AI开发需更深入考虑这种隐藏学习机制。

10k 18 hours ago

Models

Starcoder2_3b

Bigcode

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map