Best 内部表征 AI Tools & Models - Premium 内部表征 News

AI News

OpenAI 揭示 AI 模型内部特征：可调控 “毒性” 行为助力安全 AI 开发

近日，OpenAI 发布了一项重要研究，揭示了人工智能（AI）模型内部存在的可调控特征，这些特征与模型的异常行为密切相关。研究人员通过对 AI 模型内部表征的分析，发现了一些模式，这些模式在模型表现出不当行为时会被激活。研究显示，某些特征与 AI 模型的有害行为，如撒谎或提供不负责任的建议，直接相关。图源备注：图片由AI生成，图片授权服务商Midjourney令人惊讶的是，研究团队发现，通过调整这些特征，可以显著增加或减少模型的 “毒性”。OpenAI 的可解释性研究员丹・莫辛表

13.1k 07-23

OpenAI 揭示 AI 模型内部特征：可调控 “毒性” 行为助力安全 AI 开发

揭秘 AI 黑箱：OpenAI 如何调控模型 “毒性” 行为！

近日，OpenAI 发布了一项令人振奋的研究，揭示了人工智能（AI）模型中存在的可调控特征，这些特征直接与模型的 “异常行为” 相关。研究人员通过分析 AI 模型的内部表征，发现了模式，这些模式在模型表现出不安全行为时会被激活。例如，他们找到了一个与有害行为相关的特征，意味着 AI 可能会给出不当的回答，如撒谎或提出不负责任的建议。更令人惊讶的是，研究人员通过简单的调整这些特征，就能够增加或减少 AI 模型的毒性。这项研究为开发更安全的 AI 模型提供了新的思路。Op

12k 19 hours ago

大模型竟在“装傻”！研究发现它们知道正确答案却故意说错

一项由以色列理工学院主导的最新研究表明，大型语言模型（LLM）可能“深藏不露”，掌握的知识比实际表现出来的更多。研究人员发现，LLM 的内部表征编码了关于其输出正确性的信息，即使它们最终生成了错误的答案，也能在内部识别出正确答案。该研究团队重点分析了 LLM 在长文本生成中的错误，这更贴近其在现实世界中的应用场景。他们构建了一个错误检测数据集，通过比较模型生成的答案与真实答案来判断其正确性，并以此为基础，研究 LLM 内部表征中编码真实性信号的位置。研

16.4k yesterday

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

​OpenAI 揭示 AI 模型内部特征：可调控 “毒性” 行为助力安全 AI 开发

揭秘 AI 黑箱：OpenAI 如何调控模型 “毒性” 行为！

大模型竟在“装傻”！研究发现它们知道正确答案却故意说错

OpenAI 揭示 AI 模型内部特征：可调控 “毒性” 行为助力安全 AI 开发