文章讨论当前主流的人工智能对齐研究是否能有效防止未来的灾难性危害。作者认为这些研究主要服务于提高产品表现,很难真正解决深层次的安全问题。防止灾难还需要更广泛地参与人工智能伦理和治理方面的讨论。公众舆论非常重要,但不能只依赖那些从人工智能部署中获得利益的人。
相关AI新闻推荐

64页论文揭示AI模型排行榜黑幕:Llama4发布前私下测试27个版本,只取最佳成绩
近日,一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注,尤其是对大型语言模型(LLM)领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出,排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。论文显示,一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。例如,Meta 在发布 Llama4之前测试了多达27个版本,然后只对外公布表现最佳的模型。这种 “最佳选择” 策略不仅导致了模型排行榜的膨胀,还可能误导用户对模型真实能力的判断。

研究称,流行的人工智能基准 LMArena 据称有利于大型供应商
Salesforce AI Research发布多项创新,旨在解决企业AI系统在强大智能与稳定执行力之间的差距,即“锯齿状智能”。核心目标是构建更智能、可信、适用于企业应用的AI代理,并向“企业通用智能”(EGI)迈进。研究重点在于量化和解决AI性能不一致性,推出了SIMPLE数据集作为公开基准。更重要的是,Salesforce推出了CRMArena,一个模拟真实CRM场景的基准测试框架,用于全面评估AI代理在服务、分析和管理等角色中的表现。早期测试显示,现有领先AI座席在函数调用成功率方面仍有提升空间。在模型

小身材,大智慧!微软Phi-4系列推理模型发布,性能直逼GPT-4o
微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。Phi-4-reasoning 拥有140亿个参数,并借鉴OpenAI o3-mini的推理路径,通过监督微调进行训练。更高级的Phi-4-reasoning-plus在此基础上增加了强化学习机制,处理的tok

AI与经济双重夹击:人工智能正开始严重影响美国就业市场
美国劳工统计局最新数据显示,美国年轻大学毕业生进入职场后面临的期望与现实之间的差距已降至历史最低水平,表明新毕业生就业形势严峻。《大西洋月刊》分析指出,这一转变或由多重因素叠加所致,其中生成式人工智能的崛起被认为是关键因素之一。哈佛大学经济学家戴维·戴明警告称,生成式人工智能擅长信息整合、报告撰写和演示制作,而这些恰恰是年轻大学毕业生在办公室中的主要工作内容,暗示AI正在逐步取代初级岗位。然而,就业困境并非完全归咎于人工智能。《大西

Meta 预测 2035 年生成式人工智能收入将达 1.4 万亿美元
根据最近解封的法庭文件,Meta 公司对其生成式人工智能产品的营收进行了大胆预测。公司预计在2025年,这些产品的营收将达到20亿到30亿美元,而到2035年,这一数字可能会飙升至4600亿到1.4万亿美元。这些文件是针对一宗诉讼而提交的,书籍作者们控告 Meta 未授权使用他们的作品进行人工智能的训练。然而,文件中并没有明确说明 Meta 所称的 “生成式人工智能产品” 具体包括哪些内容。尽管如此,公众已知 Meta 通过多种方式从生成式人工智能中获利,并且未来有望获得更多收入。Meta 与一

亚马逊推出 Nova Premier:最新一代 AI 模型的强大实力
近日,亚马逊发布了其 Nova 系列中最强大的 AI 模型 ——Nova Premier。该模型能够处理文本、图像和视频(但不支持音频),并已在亚马逊的 AI 模型开发平台 Bedrock 上可用。亚马逊表示,Nova Premier 在 “复杂任务” 方面表现出色,能够进行 “深度理解上下文、多步骤规划以及在多个工具和数据源之间精准执行”。Nova 系列模型最早于去年12月在亚马逊的 AWS re:Invent 大会上亮相。近年来,亚马逊不断扩展这一系列,包括生成图像和视频的模型、音频理解以及能够执行任务的智能代理模型。Nova P

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得

快手All in AI视觉!成立可灵AI事业部,加速大模型商业化
4 月 30 日,快手发布组织架构调整公告,宣布正式成立可灵AI事业部,进一步强化其在人工智能领域的战略布局。公告显示,新成立的可灵AI事业部下设可灵AI产品部、运营部和技术部,全面负责包括可灵、可图在内的系列大模型业务。快手高级副总裁盖坤将出任可灵AI事业部负责人,并继续兼任社区科学线负责人。与此同时,快手社区科学线下成立了基础大模型与应用部,专注于LLM大模型、多模态理解大模型以及相关应用技术的研发。自 2024 年 6 月发布以来,可灵AI凭借其卓越的视觉表现

Nation Group 重塑战略,拥抱人工智能时代
泰国知名媒体公司 Nation Group 近日宣布了一项重大的战略和组织重组计划,旨在通过人工智能的整合、成本优化以及业务多元化,推动长期增长。这项计划在股东一致通过后,标志着公司在媒体领域未来发展的关键一步,旨在提升管理灵活性并确保在新媒体时代的领先地位。Nation Group 的董事会主席兼首席执行官 Shine Bunnag 表示:“这一战略转型不仅仅是一次重组,而是为组织开辟全新未来的重要举措。我们必须从内部加强核心能力,以便外部提供高质量的新闻内容,并与合作伙伴、客户和消

DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破
中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。模型亮点:专注数学推理,性能卓越DeepSeek-Prover-V2-671B 是 DeepSeek 针对数学问题解决量身打造的最新力作。社交媒体上流传的信息显示,该模型在复