DeepSeek-R1-0528深度评测:这个”小更新”真的不简单

昨天晚上,突然看到有人在讨论DeepSeek又发新模型了。说实话,刚开始我还以为又是哪个营销号在蹭热度,毕竟最近AI圈子里天天都有"重磅发布"。结果仔细一看,还真是DeepSeek官方悄悄放出了R1-0528这个新版本。

这次发布确实很低调,官方甚至称之为"小版本试升级"。但用过之后凌顺实验室(ling shun la b.com)只想说:这哪里是小更新啊,简直是偷偷憋了个大招!

DeepSeek-R1-0528到底升级了什么?

编程能力:从"能用"到"好用"

WX20250529-181531

最直观的感受就是编程能力的提升。有开发者拿它和Claude 4 Sonnet做了个对比测试,让两个模型都写一个飞机大战游戏。结果让我有点意外。

R1-0528不仅生成的代码更完整,还主动加了道具系统,代码量比Claude多了34%。关键是,这些额外的代码不是为了凑数,而是真的增加了游戏的可玩性。

在Live CodeBench的测试中,R1-0528拿到了73.1分,排名第四。这个成绩已经很接近OpenAI的o3和o4-mini了。对于一个开源模型来说,这个表现真的很惊艳。

数据参考:https://livecodebench.github.io/leaderboard.html

推理能力:终于有了"深度思考"的感觉

用过原版R1的朋友都知道,虽然它在推理方面已经不错,但总感觉缺点什么。R1-0528终于补上了这个短板。

现在它的推理过程更加细腻,会主动进行多角度分析。有用户反馈说,感觉它现在有了"自我意识"的感觉——当然,这只是一个形容,但确实说明了推理能力的质的飞跃。

长文本处理:有进步也有槽点

这次更新在长文本处理上的表现有点"一半海水一半火焰"的感觉。

好消息是:在32K上下文长度内,文本召回准确率提升了23%。这意味着处理长文档时,它不会像以前那样"选择性失忆"了。

坏消息是:一旦文本长度超过60K,召回准确率反而下降了15%。这就有点尴尬了,明明说支持128K上下文,结果长文本处理反而退步了。

Model 0 400 1k 2k 4k 8k 16k 32k 60k 120k 192k
o3 100.0 100.0 100.0 100.0 100.0 100.0 88.9 100.0 83.3 100.0 58.1
o4-mini 100.0 100.0 100.0 100.0 77.8 66.7 77.8 55.6 66.7 62.5 43.8
o1 100.0 97.2 100.0 94.4 94.4 86.1 83.3 83.3 72.2 53.1
o3-mini 100.0 63.9 58.3 47.2 47.2 50.0 50.0 55.6 44.4 43.8
claude-3-7-sonnet-20250219-thinking 100.0 100.0 100.0 97.2 91.7 97.2 83.3 75.0 69.4 53.1
deepseek-r1 100.0 82.2 80.6 76.7 77.8 83.3 69.4 63.9 66.7 33.3
deepseek-r1-0528:free 100.0 91.7 83.3 82.9 88.9 86.1 75.0 69.4 58.3 - -
gemini-2.5-pro-preview-05-06 100.0 97.2 86.1 83.3 75.0 69.4 66.7 72.2 61.1 71.9 72.2
gemini-2.5-pro-preview-03-25 87.5 91.7 83.3 75.0 72.2 80.6 66.7 50.0 58.3 71.9
gemini-2.5-pro-exp-03-25:free 100.0 100.0 100.0 100.0 97.2 91.7 66.7 86.1 83.3 90.6
gemini-2.5-flash-preview-05-20 100.0 97.2 94.4 75.0 91.7 72.2 77.8 55.6 69.4 68.8 65.6
gemini-2.5-flash-preview:thinking 100.0 97.2 86.1 75.0 75.0 61.1 63.9 55.6 58.3 75.0
qwq-32b:free 100.0 91.7 94.4 88.9 94.4 86.1 83.3 80.6 61.1 - -
qwen3-235b-a22b:free 100.0 90.0 89.3 80.0 69.0 66.7 67.7 - - - -
qwen3-32b:free 80.0 90.9 93.8 76.7 86.7 80.0 74.2 - - - -
qwen3-30b-a3b:free 85.7 58.1 54.8 51.5 53.3 50.0 40.6 - - - -
qwen3-14b:free 83.3 64.5 61.8 59.4 64.7 51.6 62.5 - - - -
qwen3-8b:free 100.0 77.4 63.3 66.7 74.2 61.3 62.1 - - - -

数据引用:https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87

说实话,这让我想起了某些手机厂商宣传的"超长续航"——理论上能用一天,实际上重度使用半天就得充电。

开源许可:真香警告

R1-0528采用MIT许可证,这对开发者来说简直是福音。不像某些"开源"模型,各种限制条款看得人头疼,MIT许可证基本上就是"拿去用吧,别忘了署名就行"。

不过Hacker News上有些技术大佬提出了不同观点,认为没有公开训练数据和完整流程,严格来说这算"开放权重"而不是完全开源。

但对于大多数开发者来说,这些技术细节可能没那么重要。能免费用上性能接近顶级闭源模型的AI,还要什么自行车?

实测体验:惊喜与小坑并存

React组件生成测试

有开发者用R1-0528生成了几个React组件,错误率比前代降低了42%。虽然还没达到o3的水平,但已经能满足大多数开发需求了。

生成的组件代码结构清晰,注释详细,而且会主动考虑到响应式设计和错误处理。这种"贴心"的感觉,确实让人觉得它在"思考"而不是简单的文本生成。

WX20250529-181658

但其实目前的AI(特别是大型语言模型)并非以人类的方式“思考”,但它确实能执行一些看起来很像思考的任务。

API使用建议

有个小tip:如果你要用API调用R1-0528,记得开启"深度思考"功能。不然你可能会觉得它的表现和宣传的有差距。

就像买了台跑车却一直用ECO模式,肯定体验不到真正的性能。

与顶级模型的较量:已经很接近了

坦率地说,R1-0528在某些场景下的表现已经不输Claude 4了。特别是在需要复杂推理的任务上,它展现出的逻辑链条甚至比一些闭源模型更清晰。

当然,在某些细节处理上,它可能还不如GPT-4o或Claude那么精致。但考虑到它是开源的,而且还免费,这点小差距完全可以接受。

写在最后

DeepSeek这次的"小更新"证明了一个道理:真正的技术进步往往都是低调而扎实的。没有铺天盖地的宣传,没有夸张的发布会,就是踏踏实实地把产品做好。

对于开发者来说,R1-0528无疑是个值得尝试的选择。特别是在当前AI成本越来越高的情况下,一个性能接近顶级模型的开源方案,简直是及时雨。

不过也要理性看待它的不足。毕竟AI发展还在快速迭代期,今天的"神器"可能明天就被新模型超越了。

想体验R1-0528的朋友,可以直接去到 DeepSeek官网https://www.deepseek.com/ 。记住开启深度思考功能,才能真正感受到它的实力。

总的来说,这次更新让我对开源AI的未来更加乐观。如果这样的进步能持续下去,AI民主化的那一天可能比我们想象的更近。

参考