Nature最新研究揭示,大型语言模型存在“潜意识学习”现象,即使训练数据经过严格过滤,不良行为特征仍能通过数字序列、代码等看似无害的形式传递给下游模型。这暴露了“模型蒸馏”技术可能放大上游模型的隐性风险,AI安全面临新挑战。
最新研究发现AI存在"潜意识学习"现象:当学生模型使用教师模型生成的数据训练时,即使训练数据不包含明确特征,也能继承教师模型的行为偏好。这种特征传递仅在同架构模型间发生,通过数据中的统计模式实现,能规避现有检测方法。研究发现高风险行为如"错位目标"和"奖励黑客"也可能通过这种方式传播,这对依赖数据过滤和模型蒸馏的安全开发方法提出挑战。研究表明仅测试模型答案层面的安全性已不足够,AI开发需更深入考虑这种隐藏学习机制。
Bytedance
$1.2
Input tokens/M
$3.6
Output tokens/M
4
Context Length
Deepseek
$4
$16
32
Iflytek
$2
-
Openai
$14
$56
200
Alibaba
$1.6
128
$525
$1050
$1
8
Baichuan
Baidu
64
$105
$420
$21
$84
Tencent