今日,人工智能公司Anthropic正式发布其旗舰模型Claude Opus4的升级版——Claude Opus4.1。此次更新旨在全面提升模型的agentic任务、真实世界编程和推理能力,尤其是在编程和数据分析方面的表现引人注目。
根据官方信息,Claude Opus4.1的最大亮点在于其惊人的编程性能提升。在SWE-bench Verified编程评测中,其表现高达74.5%,这一成绩显示了其在处理复杂代码问题上的强大实力。GitHub的反馈也印证了这一点,开发者们普遍认为Opus4.1在多文件代码重构等任务上表现优于其前身。此外,日本电商巨头Rakuten Group也指出,新模型能够更精准地定位大型代码库中的错误,有效减少不必要的更改和潜在bug。
除了编程能力的飞跃,Opus4.1在深入研究和数据分析方面也有显著进步,特别是在细节追踪和agentic搜索能力上有所加强。Windsurf的基准测试结果显示,Opus4.1的表现比Opus4提升了一个标准差,这一进步幅度堪比Sonnet3.7到Sonnet4的跨越。
尽管此次升级带来了显著的性能提升,但Anthropic强调,Opus4.1属于渐进式改进,并非一次革命性的更新。它将继续按照**AI安全等级3(ASL-3)**标准部署,并在多项安全评估中表现出稳健性。新模型在拒绝违规请求方面的表现略有提升,无害响应率达到了98.76%。
此外,在儿童安全、政治偏见以及代理性能力测试中,Opus4.1的风险水平与前一版本保持一致,并且在极端滥用场景的配合度上降低了约25%,显示出更强的安全性。
Claude Opus4.1现已面向所有付费用户、Claude Code、API、Amazon Bedrock和Google Cloud Vertex AI开放,价格维持与Opus4相同。