DeepSeek-R1-0528深度评测：这个”小更新”真的不简单

2025年5月29日 lingshun

昨天晚上，突然看到有人在讨论DeepSeek又发新模型了。说实话，刚开始我还以为又是哪个营销号在蹭热度，毕竟最近AI圈子里天天都有"重磅发布"。结果仔细一看，还真是DeepSeek官方悄悄放出了R1-0528这个新版本。

这次发布确实很低调，官方甚至称之为"小版本试升级"。但用过之后凌顺实验室（ling shun la b.com）只想说：这哪里是小更新啊，简直是偷偷憋了个大招！

DeepSeek-R1-0528到底升级了什么？

编程能力：从"能用"到"好用"

最直观的感受就是编程能力的提升。有开发者拿它和Claude 4 Sonnet做了个对比测试，让两个模型都写一个飞机大战游戏。结果让我有点意外。

R1-0528不仅生成的代码更完整，还主动加了道具系统，代码量比Claude多了34%。关键是，这些额外的代码不是为了凑数，而是真的增加了游戏的可玩性。

在Live CodeBench的测试中，R1-0528拿到了73.1分，排名第四。这个成绩已经很接近OpenAI的o3和o4-mini了。对于一个开源模型来说，这个表现真的很惊艳。

数据参考：https://livecodebench.github.io/leaderboard.html

推理能力：终于有了"深度思考"的感觉

用过原版R1的朋友都知道，虽然它在推理方面已经不错，但总感觉缺点什么。R1-0528终于补上了这个短板。

现在它的推理过程更加细腻，会主动进行多角度分析。有用户反馈说，感觉它现在有了"自我意识"的感觉——当然，这只是一个形容，但确实说明了推理能力的质的飞跃。

长文本处理：有进步也有槽点

这次更新在长文本处理上的表现有点"一半海水一半火焰"的感觉。

好消息是：在32K上下文长度内，文本召回准确率提升了23%。这意味着处理长文档时，它不会像以前那样"选择性失忆"了。

坏消息是：一旦文本长度超过60K，召回准确率反而下降了15%。这就有点尴尬了，明明说支持128K上下文，结果长文本处理反而退步了。

Model	0	400	1k	2k	4k	8k	16k	32k	60k	120k	192k
o3	100.0	100.0	100.0	100.0	100.0	100.0	88.9	100.0	83.3	100.0	58.1
o4-mini	100.0	100.0	100.0	100.0	77.8	66.7	77.8	55.6	66.7	62.5	43.8
o1	100.0	97.2	100.0	94.4	94.4	86.1	83.3	83.3	72.2	53.1
o3-mini	100.0	63.9	58.3	47.2	47.2	50.0	50.0	55.6	44.4	43.8
claude-3-7-sonnet-20250219-thinking	100.0	100.0	100.0	97.2	91.7	97.2	83.3	75.0	69.4	53.1
deepseek-r1	100.0	82.2	80.6	76.7	77.8	83.3	69.4	63.9	66.7	33.3
deepseek-r1-0528:free	100.0	91.7	83.3	82.9	88.9	86.1	75.0	69.4	58.3	-	-
gemini-2.5-pro-preview-05-06	100.0	97.2	86.1	83.3	75.0	69.4	66.7	72.2	61.1	71.9	72.2
gemini-2.5-pro-preview-03-25	87.5	91.7	83.3	75.0	72.2	80.6	66.7	50.0	58.3	71.9
gemini-2.5-pro-exp-03-25:free	100.0	100.0	100.0	100.0	97.2	91.7	66.7	86.1	83.3	90.6
gemini-2.5-flash-preview-05-20	100.0	97.2	94.4	75.0	91.7	72.2	77.8	55.6	69.4	68.8	65.6
gemini-2.5-flash-preview:thinking	100.0	97.2	86.1	75.0	75.0	61.1	63.9	55.6	58.3	75.0
qwq-32b:free	100.0	91.7	94.4	88.9	94.4	86.1	83.3	80.6	61.1	-	-
qwen3-235b-a22b:free	100.0	90.0	89.3	80.0	69.0	66.7	67.7	-	-	-	-
qwen3-32b:free	80.0	90.9	93.8	76.7	86.7	80.0	74.2	-	-	-	-
qwen3-30b-a3b:free	85.7	58.1	54.8	51.5	53.3	50.0	40.6	-	-	-	-
qwen3-14b:free	83.3	64.5	61.8	59.4	64.7	51.6	62.5	-	-	-	-
qwen3-8b:free	100.0	77.4	63.3	66.7	74.2	61.3	62.1	-	-	-	-

数据引用：https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87

说实话，这让我想起了某些手机厂商宣传的"超长续航"——理论上能用一天，实际上重度使用半天就得充电。

开源许可：真香警告

R1-0528采用MIT许可证，这对开发者来说简直是福音。不像某些"开源"模型，各种限制条款看得人头疼，MIT许可证基本上就是"拿去用吧，别忘了署名就行"。

不过Hacker News上有些技术大佬提出了不同观点，认为没有公开训练数据和完整流程，严格来说这算"开放权重"而不是完全开源。

但对于大多数开发者来说，这些技术细节可能没那么重要。能免费用上性能接近顶级闭源模型的AI，还要什么自行车？

实测体验：惊喜与小坑并存

React组件生成测试

有开发者用R1-0528生成了几个React组件，错误率比前代降低了42%。虽然还没达到o3的水平，但已经能满足大多数开发需求了。

生成的组件代码结构清晰，注释详细，而且会主动考虑到响应式设计和错误处理。这种"贴心"的感觉，确实让人觉得它在"思考"而不是简单的文本生成。

但其实目前的AI（特别是大型语言模型）并非以人类的方式“思考”，但它确实能执行一些看起来很像思考的任务。

API使用建议

有个小tip：如果你要用API调用R1-0528，记得开启"深度思考"功能。不然你可能会觉得它的表现和宣传的有差距。

就像买了台跑车却一直用ECO模式，肯定体验不到真正的性能。

与顶级模型的较量：已经很接近了

坦率地说，R1-0528在某些场景下的表现已经不输Claude 4了。特别是在需要复杂推理的任务上，它展现出的逻辑链条甚至比一些闭源模型更清晰。

当然，在某些细节处理上，它可能还不如GPT-4o或Claude那么精致。但考虑到它是开源的，而且还免费，这点小差距完全可以接受。

写在最后

DeepSeek这次的"小更新"证明了一个道理：真正的技术进步往往都是低调而扎实的。没有铺天盖地的宣传，没有夸张的发布会，就是踏踏实实地把产品做好。

对于开发者来说，R1-0528无疑是个值得尝试的选择。特别是在当前AI成本越来越高的情况下，一个性能接近顶级模型的开源方案，简直是及时雨。

不过也要理性看待它的不足。毕竟AI发展还在快速迭代期，今天的"神器"可能明天就被新模型超越了。

想体验R1-0528的朋友，可以直接去到 DeepSeek官网https://www.deepseek.com/ 。记住开启深度思考功能，才能真正感受到它的实力。

总的来说，这次更新让我对开源AI的未来更加乐观。如果这样的进步能持续下去，AI民主化的那一天可能比我们想象的更近。