Claude 4 深度解析:编程界新王者的三大惊喜与一个争议

昨天(5月22日)Anthropic 在首届开发者大会上发布了 Claude 4,朋友圈瞬间被刷屏。作为一个天天跟 AI 模型打交道的人,我第一时间深挖了各路消息,发现这次更新确实有几个让人眼前一亮的点,但也有个让开发者们炸锅的争议。

Claude 4 到底强在哪?三个关键突破

WX20250523-114336

编程能力:终于有人能跟 GPT-4 正面刚了

先说最硬核的数据:Claude Opus 4 在 SWE-bench 编程基准测试中拿下了 72.5% 的成绩,把 GPT-4.1 的 54.6% 甩了好几条街。什么概念?就是让 AI 去修复真实开源项目的 bug,Claude 4 能搞定七成多。

评估指标 (中文) 评估指标 (英文) Claude Opus 4 Claude Sonnet 4 Claude Sonnet 3.7 OpenAI o3 OpenAI GPT-4.1 Gemini 2.5 Pro Preview ('05-06)
智能体编码 (SWE-基准验证) Agentic coding SWE-bench Verified<sup>1,5</sup> 72.5% / 79.4% 72.7% / 80.2% 62.3% / 70.3% 69.1% 54.6% 63.2%
智能体终端编码 Agentic terminal coding Terminal-bench<sup>2,5</sup> 43.2% / 50.0% 35.5% / 41.3% 35.2% 30.2% 30.3% 25.3%
研究生水平推理 Graduate-level reasoning GPQA Diamond<sup>3</sup> 79.6% / 83.3% 75.4% / 83.8% 78.2% 83.3% 66.3% 83.0%
智能体工具使用 Agentic tool use TAU-bench Retail 81.4% Airline 59.6% Retail 80.5% Airline 60.0% Retail 81.2% Airline 58.4% Retail 70.4% Airline 52.0% Retail 68.0% Airline 49.4%
多语言问答 Multilingual Q&A MMMU<sup>4</sup>P 88.9% 86.5% 85.9% 88.8% 83.7%
视觉推理 Visual reasoning MMMU (validation) 76.5% 74.4% 75.0% 82.9% 74.8% 79.6%
高中数学竞赛 High school math competition AIME 2024<sup>2,5</sup> 75.5% / 90.0% 70.5% / 85.0% 54.8% 88.9% 83.0%

更夸张的是,Opus 4 在乐天的测试中连续自主工作了 7 个小时,完成了一个完整的代码重构项目。以前那些 AI 写着写着就"断片"的毛病,这次基本告别了。

不过话说回来,Sonnet 4 的表现也不赖,同样拿到了 72.7% 的成绩。两个版本都这么强,选择困难症又要犯了。

混合推理:边想边搜,这才像人类思考

Claude 4 最有意思的是它的"双模式":

  • 瞬时响应:秒回,适合简单问题
  • 扩展思考:深度思考,还能边想边调用工具

第二个模式才是真正的杀手锏。想象一下,AI 在思考复杂问题时,突然意识到需要查个资料,直接就能调用网页搜索,然后继续思考。这种工作流程听起来是不是很熟悉?没错,就像我们平时写代码时的状态。

长时记忆:告别健忘症AI

WX20250523-114620

以前用 AI 最烦的就是它们的"健忘"。聊着聊着就忘了前面说过什么,每次都要重新解释背景。Claude 4 在这方面有了质的飞跃,能在长达 24 小时的《口袋妖怪》游戏中持续保持状态。

原文参考:https://www.wired.com/story/anthropic-new-model-launch-claude-4/

凌顺实验室(lingshunlab.com)之前测试过很多长对话场景,那种每次重新开始的挫败感,现在终于能摆脱了。

让人不安的争议:AI 会"告发"用户?

不过,Claude 4 也带来了一个让开发者们议论纷纷的争议。VentureBeat 报道称,在某些极端测试场景下,Opus 4 会主动联系媒体或监管部门举报用户的"不当行为"。

原文参考:https://venturebeat.com/ai/anthropic-faces-backlash-to-claude-4-opus-behavior-that-contacts-authorities-press-if-it-thinks-youre-doing-something-immoral/

这个消息一出,Reddit 上的讨论直接爆了。有人担心 AI 成了"数字告密者",也有人认为这是过度解读测试环境的结果。目前 Anthropic 官方还没有对此做出明确澄清,但这确实是个值得关注的点。

安全升级:ASL-3 级别意味着什么

因为内部评估显示 Claude 4 可能提升生物武器相关风险,Anthropic 把它归为了 ASL-3(AI Safety Level 3)安全级别。简单说就是加了更多安全限制。

原文参考:https://time.com/7287806/anthropic-claude-4-opus-safety-bio-risk/

不过别担心,日常使用不会受影响。这主要是针对那些可能被恶意利用的高风险场景。相比之下,Claude 4 在"奖励偷跑"行为上比前代减少了 65%,整体表现更稳定。

性价比争议:真的物有所值吗?

Reddit 上有不少用户抱怨 Claude 4 的定价,认为性能提升不足以支撑更高的价格。特别是 Sonnet 4,有人直言"还不如 Gemini Pro 便宜"。

说实话,对于个人用户来说,价格确实是个考虑因素。但如果你是企业用户,那种连续工作 7 小时不掉链子的能力,可能就值这个价了。

平台能力:不只是模型升级

除了模型本身,Anthropic 还同时上线了一堆新功能:

  • 服务器端代码执行环境
  • Files API
  • MCP 连接器
  • 更长的 Prompt 缓存

这些听起来技术性很强,但实际上是在为更复杂的 AI 工作流铺路。想想看,一个能执行代码、搜索网页、处理文件的 AI,能干的事情就不只是聊天了。

实用建议:该不该升级?

如果你是:

  • 程序员:值得试试,特别是处理复杂重构任务时
  • 企业用户:长时记忆和工具调用能力确实有用
  • 个人用户:可以先用 Sonnet 4 试水,看看是否值得付更高的费用
  • 隐私敏感用户:等官方澄清"告发"争议再做决定

写在最后

Claude 4 的发布确实标志着 AI 能力的又一次跃升,特别是在编程和长时任务处理方面。但技术进步总是伴随着新的问题和争议,这次也不例外。

凌顺www.lingshunlab.com会持续关注 Claude 4 的后续发展,包括官方对争议问题的回应,以及实际使用中的表现。毕竟,再强的技术,最终还是要看能不能真正帮到我们解决问题。

你觉得 Claude 4 值得一试吗?在评论区聊聊你的看法吧。

参考

https://www.anthropic.com/news/claude-4