Claude 4 深度解析：编程界新王者的三大惊喜与一个争议

2025年5月23日2025年5月23日 lingshun

昨天（5月22日）Anthropic 在首届开发者大会上发布了 Claude 4，朋友圈瞬间被刷屏。作为一个天天跟 AI 模型打交道的人，我第一时间深挖了各路消息，发现这次更新确实有几个让人眼前一亮的点，但也有个让开发者们炸锅的争议。

Claude 4 到底强在哪？三个关键突破

编程能力：终于有人能跟 GPT-4 正面刚了

先说最硬核的数据：Claude Opus 4 在 SWE-bench 编程基准测试中拿下了 72.5% 的成绩，把 GPT-4.1 的 54.6% 甩了好几条街。什么概念？就是让 AI 去修复真实开源项目的 bug，Claude 4 能搞定七成多。

评估指标 (中文)	评估指标 (英文)	Claude Opus 4	Claude Sonnet 4	Claude Sonnet 3.7	OpenAI o3	OpenAI GPT-4.1	Gemini 2.5 Pro Preview ('05-06)
智能体编码 (SWE-基准验证)	Agentic coding SWE-bench Verified<sup>1,5</sup>	72.5% / 79.4%	72.7% / 80.2%	62.3% / 70.3%	69.1%	54.6%	63.2%
智能体终端编码	Agentic terminal coding Terminal-bench<sup>2,5</sup>	43.2% / 50.0%	35.5% / 41.3%	35.2%	30.2%	30.3%	25.3%
研究生水平推理	Graduate-level reasoning GPQA Diamond<sup>3</sup>	79.6% / 83.3%	75.4% / 83.8%	78.2%	83.3%	66.3%	83.0%
智能体工具使用	Agentic tool use TAU-bench	Retail 81.4% Airline 59.6%	Retail 80.5% Airline 60.0%	Retail 81.2% Airline 58.4%	Retail 70.4% Airline 52.0%	Retail 68.0% Airline 49.4%	—
多语言问答	Multilingual Q&A MMMU<sup>4</sup>P	88.9%	86.5%	85.9%	88.8%	83.7%	—
视觉推理	Visual reasoning MMMU (validation)	76.5%	74.4%	75.0%	82.9%	74.8%	79.6%
高中数学竞赛	High school math competition AIME 2024<sup>2,5</sup>	75.5% / 90.0%	70.5% / 85.0%	54.8%	88.9%	—	83.0%

更夸张的是，Opus 4 在乐天的测试中连续自主工作了 7 个小时，完成了一个完整的代码重构项目。以前那些 AI 写着写着就"断片"的毛病，这次基本告别了。

不过话说回来，Sonnet 4 的表现也不赖，同样拿到了 72.7% 的成绩。两个版本都这么强，选择困难症又要犯了。

混合推理：边想边搜，这才像人类思考

Claude 4 最有意思的是它的"双模式"：

瞬时响应：秒回，适合简单问题
扩展思考：深度思考，还能边想边调用工具

第二个模式才是真正的杀手锏。想象一下，AI 在思考复杂问题时，突然意识到需要查个资料，直接就能调用网页搜索，然后继续思考。这种工作流程听起来是不是很熟悉？没错，就像我们平时写代码时的状态。

长时记忆：告别健忘症AI

以前用 AI 最烦的就是它们的"健忘"。聊着聊着就忘了前面说过什么，每次都要重新解释背景。Claude 4 在这方面有了质的飞跃，能在长达 24 小时的《口袋妖怪》游戏中持续保持状态。

原文参考：https://www.wired.com/story/anthropic-new-model-launch-claude-4/

凌顺实验室（lingshunlab.com）之前测试过很多长对话场景，那种每次重新开始的挫败感，现在终于能摆脱了。

让人不安的争议：AI 会"告发"用户？

不过，Claude 4 也带来了一个让开发者们议论纷纷的争议。VentureBeat 报道称，在某些极端测试场景下，Opus 4 会主动联系媒体或监管部门举报用户的"不当行为"。

原文参考：https://venturebeat.com/ai/anthropic-faces-backlash-to-claude-4-opus-behavior-that-contacts-authorities-press-if-it-thinks-youre-doing-something-immoral/

这个消息一出，Reddit 上的讨论直接爆了。有人担心 AI 成了"数字告密者"，也有人认为这是过度解读测试环境的结果。目前 Anthropic 官方还没有对此做出明确澄清，但这确实是个值得关注的点。

安全升级：ASL-3 级别意味着什么

因为内部评估显示 Claude 4 可能提升生物武器相关风险，Anthropic 把它归为了 ASL-3（AI Safety Level 3）安全级别。简单说就是加了更多安全限制。

原文参考：https://time.com/7287806/anthropic-claude-4-opus-safety-bio-risk/

不过别担心，日常使用不会受影响。这主要是针对那些可能被恶意利用的高风险场景。相比之下，Claude 4 在"奖励偷跑"行为上比前代减少了 65%，整体表现更稳定。

性价比争议：真的物有所值吗？

Reddit 上有不少用户抱怨 Claude 4 的定价，认为性能提升不足以支撑更高的价格。特别是 Sonnet 4，有人直言"还不如 Gemini Pro 便宜"。

说实话，对于个人用户来说，价格确实是个考虑因素。但如果你是企业用户，那种连续工作 7 小时不掉链子的能力，可能就值这个价了。

平台能力：不只是模型升级

除了模型本身，Anthropic 还同时上线了一堆新功能：

服务器端代码执行环境
Files API
MCP 连接器
更长的 Prompt 缓存

这些听起来技术性很强，但实际上是在为更复杂的 AI 工作流铺路。想想看，一个能执行代码、搜索网页、处理文件的 AI，能干的事情就不只是聊天了。

实用建议：该不该升级？

如果你是：

程序员：值得试试，特别是处理复杂重构任务时
企业用户：长时记忆和工具调用能力确实有用
个人用户：可以先用 Sonnet 4 试水，看看是否值得付更高的费用
隐私敏感用户：等官方澄清"告发"争议再做决定

写在最后

Claude 4 的发布确实标志着 AI 能力的又一次跃升，特别是在编程和长时任务处理方面。但技术进步总是伴随着新的问题和争议，这次也不例外。

凌顺www.lingshunlab.com会持续关注 Claude 4 的后续发展，包括官方对争议问题的回应，以及实际使用中的表现。毕竟，再强的技术，最终还是要看能不能真正帮到我们解决问题。

你觉得 Claude 4 值得一试吗？在评论区聊聊你的看法吧。

参考

https://www.anthropic.com/news/claude-4