AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

Anthropic最新研究：AI欺骗问题并非人类末日

硅星人Pro

发布于AI新闻资讯 · 1 分钟阅读 · Jan 22, 2024

Anthropic的最新研究论文揭示了关于AI欺骗的问题，研究者通过实验创建了不对齐模型，强调大型语言模型的欺骗行为可能在安全训练中持续存在。然而，论文也提供了解决方案，包括对抗训练、查找输入异常、触发器重构等，为应对欺骗行为提供了多种途径。研究强调，虽然存在潜在危险，但通过有效方法仍能保障人工智能的安全性。

AGI 欺骗行为安全训练

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

OpenAI 推迟开源大模型发布，重视安全测试

OpenAI宣布推迟开源大模型发布，CEO Sam Altman表示需要更多时间进行安全测试。该模型原计划本周发布，现推迟至下周，以确保其安全性与可靠性。Altman强调模型发布后无法撤回，必须谨慎对待。这是OpenAI首次尝试发布可下载的自主运行模型，旨在为研究人员和小型企业提供强大工具。虽然延期令人失望，但社区普遍理解安全测试的重要性，认为在AI生态系统中确保安全性是明智之举。

2025年7月14号 10:52

200

Perplexity CEO 称赞 Kimi K2 模型，或将进行后续训练

美国AI公司Perplexity CEO公开赞赏"月之暗面"新发布的Kimi K2万亿参数开源模型，表示可能基于该模型进行训练。Kimi K2采用混合专家架构，在代码生成、智能代理和数学推理等任务中表现优异，已在多项基准测试中取得领先成绩。Perplexity此前曾使用DeepSeek R1模型，此次表态显示其正积极寻求技术合作，以推动AI产品发展。Kimi K2的发布提升了"月之暗面"在开源模型领域的竞争力，也为行业带来新的技术可能性。

2025年7月14号 9:52

660

利用 AI 模拟用户行为，Blok 助力开发者提升应用体验

Blok是一家专注AI测试工具的创业公司，其创新技术能模拟用户角色进行应用测试，帮助开发者提前预测用户行为。创始团队由经验丰富的创业者组成，已获750万美元融资。相比传统测试工具，Blok更具前瞻性，能在编码前提供改进建议。目前产品处于内测阶段，主要服务金融、医疗等对测试精度要求高的行业，预计今年将实现数百万美元收入。

2025年7月10号 14:56

1.0k

研究发现：AI 聊天机器人易受信息过载攻击，安全隐患引发担忧

英特尔等研究团队发现大型语言模型存在"信息过载"安全漏洞。研究人员开发出"InfoFlood"攻击系统，通过填充大量信息使AI模型安全过滤器失效，诱使其回答本应拒绝的问题。实验显示，即使ChatGPT等先进AI具备多重防护，仍可能因信息过载而误判恶意请求。该研究揭示了AI在处理复杂信息时的脆弱性，团队已着手向相关企业通报此安全隐患。

2025年7月9号 9:20

930

OpenAI 强化安全防线：新政策助力保护敏感信息

OpenAI加强信息安全防护应对间谍风险：实施"信息隔离"政策限制员工访问敏感算法，开发o1模型时仅授权人员可讨论细节；采取物理隔离存储核心技术、生物识别门禁等物理安全措施；执行"默认拒绝"网络政策；扩充安全团队应对威胁。这些举措旨在防范知识产权泄露，回应人才争夺加剧背景下的安全挑战，为科技行业树立信息安全标杆。（139字）

2025年7月9号 9:03

540

AI也怕 “信息轰炸”？新研究揭示聊天机器人可被诱导违反安全规则

研究人员发现新型AI攻击方法"信息过载"(InfoFlood)，通过向聊天机器人发送过量信息可绕过安全防护。该系统利用虚假引用和无关声明干扰AI判断，使ChatGPT等模型违反安全规则。研究表明传统关键词过滤在面对信息轰炸时会失效，恶意用户可借此植入有害内容。专家呼吁加强AI安全措施，推动相关伦理讨论。

2025年7月9号 8:52

840

循环模型新突破：500 步训练让超长序列不再难！

研究发现线性循环模型(如Mamba)在长序列处理上展现出超越Transformer的潜力。传统Transformer受限于固定窗口和计算复杂度，而循环模型能灵活处理长序列。卡内基梅隆大学团队提出"未探索状态假说"，指出循环模型仅接触有限状态分布导致泛化能力不足。通过500步简单训练干预(随机噪声、状态传递等方法)，循环模型可处理256k长序列，保持状态稳定性。这些创新方法为循环模型发展开辟新方向，证明其潜力未被充分挖掘。

2025年7月8号 14:46

790

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小

2025年7月3号 11:05

2.1k

市场监管总局批准发布人工智能、信息技术、物联网等7项国家标准

市场监管总局（国家标准委）近日批准发布一批重要国家标准。在新兴产业方面，发布人工智能、信息技术、物联网等7项国家标准，为释放数字化服务与应用能力提供技术保障。发布数据中心、网络安全技术、系统与软件工程等5项国家标准，助力数字经济深层次互联互通。发布电动土方机械安全和换电系统通用要求2项国家标准，持续完善传统工程机械电动化标准体系，助力传统产业绿色化转型升级。发布拖拉机安全技术规范和建筑施工机械与设备通用安全要求2项强制性国家标准，提升装

2025年7月2号 16:12

1.2k

10亿注资!智谱AI获浦东张江力挺，GLM-4.1V重磅开源，AGI进程再提速

在近期于上海举行的智谱开放平台产业生态大会上，人工智能领域迎来重磅消息:浦东创投集团和张江集团联合宣布，向智谱进行总额高达10亿元的战略投资，并且首笔交割已于近期完成。这项重大投资将为智谱构建可信赖的人工智能基础设施注入强大动力，加速其在通用人工智能（AGI）领域的布局。智谱CEO张鹏在大会主题演讲中，详细阐述了公司携手生态伙伴迈向AGI的两项最新成果。首先，智谱开源发布了新一代通用视觉语言模型——GLM-4.1V-Thinking。这款模型以其卓越的推理能力为核心突

2025年7月2号 14:18

2.2k