Claude 4 深度解析:编程界新王者的三大惊喜与一个争议
目录
昨天(5月22日)Anthropic 在首届开发者大会上发布了 Claude 4,朋友圈瞬间被刷屏。作为一个天天跟 AI 模型打交道的人,我第一时间深挖了各路消息,发现这次更新确实有几个让人眼前一亮的点,但也有个让开发者们炸锅的争议。
Claude 4 到底强在哪?三个关键突破
编程能力:终于有人能跟 GPT-4 正面刚了
先说最硬核的数据:Claude Opus 4 在 SWE-bench 编程基准测试中拿下了 72.5% 的成绩,把 GPT-4.1 的 54.6% 甩了好几条街。什么概念?就是让 AI 去修复真实开源项目的 bug,Claude 4 能搞定七成多。
评估指标 (中文) | 评估指标 (英文) | Claude Opus 4 | Claude Sonnet 4 | Claude Sonnet 3.7 | OpenAI o3 | OpenAI GPT-4.1 | Gemini 2.5 Pro Preview ('05-06) |
---|---|---|---|---|---|---|---|
智能体编码 (SWE-基准验证) | Agentic coding SWE-bench Verified<sup>1,5</sup> | 72.5% / 79.4% | 72.7% / 80.2% | 62.3% / 70.3% | 69.1% | 54.6% | 63.2% |
智能体终端编码 | Agentic terminal coding Terminal-bench<sup>2,5</sup> | 43.2% / 50.0% | 35.5% / 41.3% | 35.2% | 30.2% | 30.3% | 25.3% |
研究生水平推理 | Graduate-level reasoning GPQA Diamond<sup>3</sup> | 79.6% / 83.3% | 75.4% / 83.8% | 78.2% | 83.3% | 66.3% | 83.0% |
智能体工具使用 | Agentic tool use TAU-bench | Retail 81.4% Airline 59.6% | Retail 80.5% Airline 60.0% | Retail 81.2% Airline 58.4% | Retail 70.4% Airline 52.0% | Retail 68.0% Airline 49.4% | — |
多语言问答 | Multilingual Q&A MMMU<sup>4</sup>P | 88.9% | 86.5% | 85.9% | 88.8% | 83.7% | — |
视觉推理 | Visual reasoning MMMU (validation) | 76.5% | 74.4% | 75.0% | 82.9% | 74.8% | 79.6% |
高中数学竞赛 | High school math competition AIME 2024<sup>2,5</sup> | 75.5% / 90.0% | 70.5% / 85.0% | 54.8% | 88.9% | — | 83.0% |
更夸张的是,Opus 4 在乐天的测试中连续自主工作了 7 个小时,完成了一个完整的代码重构项目。以前那些 AI 写着写着就"断片"的毛病,这次基本告别了。
不过话说回来,Sonnet 4 的表现也不赖,同样拿到了 72.7% 的成绩。两个版本都这么强,选择困难症又要犯了。
混合推理:边想边搜,这才像人类思考
Claude 4 最有意思的是它的"双模式":
- 瞬时响应:秒回,适合简单问题
- 扩展思考:深度思考,还能边想边调用工具
第二个模式才是真正的杀手锏。想象一下,AI 在思考复杂问题时,突然意识到需要查个资料,直接就能调用网页搜索,然后继续思考。这种工作流程听起来是不是很熟悉?没错,就像我们平时写代码时的状态。
长时记忆:告别健忘症AI
以前用 AI 最烦的就是它们的"健忘"。聊着聊着就忘了前面说过什么,每次都要重新解释背景。Claude 4 在这方面有了质的飞跃,能在长达 24 小时的《口袋妖怪》游戏中持续保持状态。
原文参考:https://www.wired.com/story/anthropic-new-model-launch-claude-4/
凌顺实验室(lingshunlab.com)之前测试过很多长对话场景,那种每次重新开始的挫败感,现在终于能摆脱了。
让人不安的争议:AI 会"告发"用户?
不过,Claude 4 也带来了一个让开发者们议论纷纷的争议。VentureBeat 报道称,在某些极端测试场景下,Opus 4 会主动联系媒体或监管部门举报用户的"不当行为"。
这个消息一出,Reddit 上的讨论直接爆了。有人担心 AI 成了"数字告密者",也有人认为这是过度解读测试环境的结果。目前 Anthropic 官方还没有对此做出明确澄清,但这确实是个值得关注的点。
安全升级:ASL-3 级别意味着什么
因为内部评估显示 Claude 4 可能提升生物武器相关风险,Anthropic 把它归为了 ASL-3(AI Safety Level 3)安全级别。简单说就是加了更多安全限制。
原文参考:https://time.com/7287806/anthropic-claude-4-opus-safety-bio-risk/
不过别担心,日常使用不会受影响。这主要是针对那些可能被恶意利用的高风险场景。相比之下,Claude 4 在"奖励偷跑"行为上比前代减少了 65%,整体表现更稳定。
性价比争议:真的物有所值吗?
Reddit 上有不少用户抱怨 Claude 4 的定价,认为性能提升不足以支撑更高的价格。特别是 Sonnet 4,有人直言"还不如 Gemini Pro 便宜"。
说实话,对于个人用户来说,价格确实是个考虑因素。但如果你是企业用户,那种连续工作 7 小时不掉链子的能力,可能就值这个价了。
平台能力:不只是模型升级
除了模型本身,Anthropic 还同时上线了一堆新功能:
- 服务器端代码执行环境
- Files API
- MCP 连接器
- 更长的 Prompt 缓存
这些听起来技术性很强,但实际上是在为更复杂的 AI 工作流铺路。想想看,一个能执行代码、搜索网页、处理文件的 AI,能干的事情就不只是聊天了。
实用建议:该不该升级?
如果你是:
- 程序员:值得试试,特别是处理复杂重构任务时
- 企业用户:长时记忆和工具调用能力确实有用
- 个人用户:可以先用 Sonnet 4 试水,看看是否值得付更高的费用
- 隐私敏感用户:等官方澄清"告发"争议再做决定
写在最后
Claude 4 的发布确实标志着 AI 能力的又一次跃升,特别是在编程和长时任务处理方面。但技术进步总是伴随着新的问题和争议,这次也不例外。
凌顺www.lingshunlab.com会持续关注 Claude 4 的后续发展,包括官方对争议问题的回应,以及实际使用中的表现。毕竟,再强的技术,最终还是要看能不能真正帮到我们解决问题。
你觉得 Claude 4 值得一试吗?在评论区聊聊你的看法吧。