DeepSeek-R1-0528深度评测:这个”小更新”真的不简单
目录
昨天晚上,突然看到有人在讨论DeepSeek又发新模型了。说实话,刚开始我还以为又是哪个营销号在蹭热度,毕竟最近AI圈子里天天都有"重磅发布"。结果仔细一看,还真是DeepSeek官方悄悄放出了R1-0528这个新版本。
这次发布确实很低调,官方甚至称之为"小版本试升级"。但用过之后凌顺实验室(ling shun la b.com)只想说:这哪里是小更新啊,简直是偷偷憋了个大招!
DeepSeek-R1-0528到底升级了什么?
编程能力:从"能用"到"好用"
最直观的感受就是编程能力的提升。有开发者拿它和Claude 4 Sonnet做了个对比测试,让两个模型都写一个飞机大战游戏。结果让我有点意外。
R1-0528不仅生成的代码更完整,还主动加了道具系统,代码量比Claude多了34%。关键是,这些额外的代码不是为了凑数,而是真的增加了游戏的可玩性。
在Live CodeBench的测试中,R1-0528拿到了73.1分,排名第四。这个成绩已经很接近OpenAI的o3和o4-mini了。对于一个开源模型来说,这个表现真的很惊艳。
推理能力:终于有了"深度思考"的感觉
用过原版R1的朋友都知道,虽然它在推理方面已经不错,但总感觉缺点什么。R1-0528终于补上了这个短板。
现在它的推理过程更加细腻,会主动进行多角度分析。有用户反馈说,感觉它现在有了"自我意识"的感觉——当然,这只是一个形容,但确实说明了推理能力的质的飞跃。
长文本处理:有进步也有槽点
这次更新在长文本处理上的表现有点"一半海水一半火焰"的感觉。
好消息是:在32K上下文长度内,文本召回准确率提升了23%。这意味着处理长文档时,它不会像以前那样"选择性失忆"了。
坏消息是:一旦文本长度超过60K,召回准确率反而下降了15%。这就有点尴尬了,明明说支持128K上下文,结果长文本处理反而退步了。
Model | 0 | 400 | 1k | 2k | 4k | 8k | 16k | 32k | 60k | 120k | 192k |
---|---|---|---|---|---|---|---|---|---|---|---|
o3 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 88.9 | 100.0 | 83.3 | 100.0 | 58.1 |
o4-mini | 100.0 | 100.0 | 100.0 | 100.0 | 77.8 | 66.7 | 77.8 | 55.6 | 66.7 | 62.5 | 43.8 |
o1 | 100.0 | 97.2 | 100.0 | 94.4 | 94.4 | 86.1 | 83.3 | 83.3 | 72.2 | 53.1 | |
o3-mini | 100.0 | 63.9 | 58.3 | 47.2 | 47.2 | 50.0 | 50.0 | 55.6 | 44.4 | 43.8 | |
claude-3-7-sonnet-20250219-thinking | 100.0 | 100.0 | 100.0 | 97.2 | 91.7 | 97.2 | 83.3 | 75.0 | 69.4 | 53.1 | |
deepseek-r1 | 100.0 | 82.2 | 80.6 | 76.7 | 77.8 | 83.3 | 69.4 | 63.9 | 66.7 | 33.3 | |
deepseek-r1-0528:free | 100.0 | 91.7 | 83.3 | 82.9 | 88.9 | 86.1 | 75.0 | 69.4 | 58.3 | - | - |
gemini-2.5-pro-preview-05-06 | 100.0 | 97.2 | 86.1 | 83.3 | 75.0 | 69.4 | 66.7 | 72.2 | 61.1 | 71.9 | 72.2 |
gemini-2.5-pro-preview-03-25 | 87.5 | 91.7 | 83.3 | 75.0 | 72.2 | 80.6 | 66.7 | 50.0 | 58.3 | 71.9 | |
gemini-2.5-pro-exp-03-25:free | 100.0 | 100.0 | 100.0 | 100.0 | 97.2 | 91.7 | 66.7 | 86.1 | 83.3 | 90.6 | |
gemini-2.5-flash-preview-05-20 | 100.0 | 97.2 | 94.4 | 75.0 | 91.7 | 72.2 | 77.8 | 55.6 | 69.4 | 68.8 | 65.6 |
gemini-2.5-flash-preview:thinking | 100.0 | 97.2 | 86.1 | 75.0 | 75.0 | 61.1 | 63.9 | 55.6 | 58.3 | 75.0 | |
qwq-32b:free | 100.0 | 91.7 | 94.4 | 88.9 | 94.4 | 86.1 | 83.3 | 80.6 | 61.1 | - | - |
qwen3-235b-a22b:free | 100.0 | 90.0 | 89.3 | 80.0 | 69.0 | 66.7 | 67.7 | - | - | - | - |
qwen3-32b:free | 80.0 | 90.9 | 93.8 | 76.7 | 86.7 | 80.0 | 74.2 | - | - | - | - |
qwen3-30b-a3b:free | 85.7 | 58.1 | 54.8 | 51.5 | 53.3 | 50.0 | 40.6 | - | - | - | - |
qwen3-14b:free | 83.3 | 64.5 | 61.8 | 59.4 | 64.7 | 51.6 | 62.5 | - | - | - | - |
qwen3-8b:free | 100.0 | 77.4 | 63.3 | 66.7 | 74.2 | 61.3 | 62.1 | - | - | - | - |
数据引用:https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87
说实话,这让我想起了某些手机厂商宣传的"超长续航"——理论上能用一天,实际上重度使用半天就得充电。
开源许可:真香警告
R1-0528采用MIT许可证,这对开发者来说简直是福音。不像某些"开源"模型,各种限制条款看得人头疼,MIT许可证基本上就是"拿去用吧,别忘了署名就行"。
不过Hacker News上有些技术大佬提出了不同观点,认为没有公开训练数据和完整流程,严格来说这算"开放权重"而不是完全开源。
但对于大多数开发者来说,这些技术细节可能没那么重要。能免费用上性能接近顶级闭源模型的AI,还要什么自行车?
实测体验:惊喜与小坑并存
React组件生成测试
有开发者用R1-0528生成了几个React组件,错误率比前代降低了42%。虽然还没达到o3的水平,但已经能满足大多数开发需求了。
生成的组件代码结构清晰,注释详细,而且会主动考虑到响应式设计和错误处理。这种"贴心"的感觉,确实让人觉得它在"思考"而不是简单的文本生成。
但其实目前的AI(特别是大型语言模型)并非以人类的方式“思考”,但它确实能执行一些看起来很像思考的任务。
API使用建议
有个小tip:如果你要用API调用R1-0528,记得开启"深度思考"功能。不然你可能会觉得它的表现和宣传的有差距。
就像买了台跑车却一直用ECO模式,肯定体验不到真正的性能。
与顶级模型的较量:已经很接近了
坦率地说,R1-0528在某些场景下的表现已经不输Claude 4了。特别是在需要复杂推理的任务上,它展现出的逻辑链条甚至比一些闭源模型更清晰。
当然,在某些细节处理上,它可能还不如GPT-4o或Claude那么精致。但考虑到它是开源的,而且还免费,这点小差距完全可以接受。
写在最后
DeepSeek这次的"小更新"证明了一个道理:真正的技术进步往往都是低调而扎实的。没有铺天盖地的宣传,没有夸张的发布会,就是踏踏实实地把产品做好。
对于开发者来说,R1-0528无疑是个值得尝试的选择。特别是在当前AI成本越来越高的情况下,一个性能接近顶级模型的开源方案,简直是及时雨。
不过也要理性看待它的不足。毕竟AI发展还在快速迭代期,今天的"神器"可能明天就被新模型超越了。
想体验R1-0528的朋友,可以直接去到 DeepSeek官网https://www.deepseek.com/ 。记住开启深度思考功能,才能真正感受到它的实力。
总的来说,这次更新让我对开源AI的未来更加乐观。如果这样的进步能持续下去,AI民主化的那一天可能比我们想象的更近。
参考
- 梁文锋不语,只是一味“小更新” – 新浪财经
- 新版 DeepSeek-R1 深夜整大活!编程能力暴涨,实测直逼 Claude 4 – 搜狐
- DeepSeek-R1-0528 in 6 Minutes – YouTube
- Hugging Face 社区讨论贴
- DeepSeek-R1-0528 模型主页 – Hugging Face
- DeepSeek-R1 GitHub 仓库
- China’s DeepSeek releases an update to its R1 reasoning model – Reuters
- DeepSeek Unveils Update to R1 Model as AI Race Heats Up – Bloomberg
- DeepSeek quietly updates R1 AI model – SCMP
- DeepSeek quietly updates its R1 reasoning model – The Daily Star
- China’s DeepSeek quietly drops R1 AI update that nearly matches OpenAI o4 mini – Benzinga
- DeepSeek R1 模型完成小版本试升级 – OSCHINA
- DeepSeek R1-0528 讨论 – Hacker News
- DeepSeek-R1-0528 讨论帖 – Reddit r/LocalLLaMA
- DeepSeek-R1-0528 – Product Hunt
- DeepSeek R1–0528 New Open-Source Reasoning Model – Medium
- AI Daily: DeepSeek releases new version R1-0528 – AI Base
- DeepSeek New Open Source R1-0528 Model Released – AI Base
- DeepSeek R1-0528 has landed in the Arena! – X @lmarena_ai
- R1-0528 feels… aware 👀 – X @chetaslua
- DeepSeek R1-0528 is available on DeepInfra – X @DeepInfra
- DeepSeek API Docs
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL – arXiv