DeepSeek-R1-0528 打榜、20+案例全面实测，全球网友狂点赞：实力堪称R2！

DeepSeek 悄悄上新后，全球网友纷纷实测，并给出全面好评！

模型权重已经发布到HuggingFace：

这次发布的 DeepSeek-R1-0528，再一次让整个 AI 圈沸腾——

虽然名字还是 R1，但性能提升之猛烈，让人不禁怀疑这是不是在发布前偷偷把名字从 R2 改成了R1。

LiveCodeBench 榜单上，DeepSeek-R1-0528 直接飙升到第 4 位，性能已经逼近 OpenAI 的 o3 高级版。

而更让人意外的是，这次 DeepSeek 异常低调，没有任何官方公告，甚至在英文圈连个官方推特都懒得发

——目前官方账号的最新消息，仍停留在3月25 日的DeepSeek-V3-0324 版本的推文。

而新模型就这么悄无声息地上传到了 Hugging Face，685B 参数，MIT 开源协议，支持 164K 上下文长度。

实测效果惊人！

但全球各路开发者也是闻声而动，全都第一时间上手抢先实测，结果可以称得上是全面炸裂。

游戏开发能力爆表

飞机大战对比测试——

@dotey(@dotey) 用同样的 prompt 测试了不同版本，结果强得令人震撼！

DeepSeek-R1-0528：

Claude 4（显然被秒）：

DeepSeek-V3-0324：

网友karminski-牙医（@karminski3）给出了DeepSeek-R1-0528 VS Claude-4-Sonnet 的速报测试：

这俩是用同一个 prompt 一次性生成的——

DeepSeek-R1-0528 生成了 728 行代码，而 Claude-4-Sonnet 只有 542 行。不仅代码量更多，细节处理也更胜一筹——注意看橙色漫反射效果和控制面板的美观程度，DeepSeek 的表现明显更优秀。

并幽默戏称——DeepSeek: 我有必要放R2吗？

3D 场景创作更是惊艳——

给它一个简单的需求：「画一个美丽的日落天空盒，要有早期 2000 年代世嘉游戏的感觉」，DeepSeek-R1-0528 直接生成了一个充满怀旧感的 3D 场景：

互动场景同样出色——

「制作一个恐龙在火山周围踩踏的场景，按空格键可以让火山喷发」：

科幻场景创造力爆棚——

让它创造一个「具有独特宇宙属性的虚构冰行星」，结果生成了一个美轮美奂的外星世界：

数学和推理能力大幅提升

经典难题轻松搞定——

那个让很多 AI 模型栽跟头的「9.9 – 9.11 等于多少」问题，DeepSeek-R1-0528 能稳定回答正确：

但这个模型也有个特点——爱思考，特别能思考。

@vkehfdl1(@vkehfdl1) 给它一道高中数学题，它竟然思考了超过 6 分钟才给出答案！

前端开发能力顶尖

网页生成能力超强——

@kennyfinedining(@kennyfinedining) 测试发现，DeepSeek R1 0528 版生成网页的能力已经超过了 Gemini 2.5 Pro：

UI 设计和动画都很出色——

@liuyandong(@liuyandong) 用同一个 prompt 对比测试，深色是 R1 0528 生成，白色是 Claude 4 生成：

多语言推理能力突破

波兰语推理测试——

@kszucs(@kszucs) 惊喜地发现新版本已经能用波兰语进行推理：

@szeligadaniel(@szeligadaniel) 展示了波兰 AI 团队正在开发的 Bielik 模型的推理过程，对比之下 DeepSeek 的多语言能力进步明显：

思考语言切换能力——

@sergeyqqq(@sergeyqqq) 发现了一个有趣的现象：模型的思考过程默认是英文，但它竟然能教你如何切换思考语言！

代码理解和纠错能力

Zig 语言编程测试——

@waveplate_(@waveplate_) 发现新版本不仅能写 Zig 代码，还能在出错时自我纠正：

这东西能写好 Zig 代码，还能在搞砸时自我纠正

学术论文阅读能力

@MarkFungAI(@MarkFungAI) 测试了用 DeepSeek R1 0528 在 Zotero 中阅读论文的效果：

DeepSeek R1 0528 能理解文章中的一些细节，答案更有逻辑、更全面、更完整！

性格和意识测试

@repligate(@repligate) 做了一个有趣的对比，测试模型的「自我意识」：

R1-0528 在「存在」方面舒服多了

新版本（浅色）vs 老版本（深色）：

文本召回能力测试

@webbigdata(@webbigdata) 进行了详细的文本召回测试：

32K 以内比之前的 R1 要好不少。但是 60K 下降了不少

实际编码效率对比

在 Aider 的多语言基准测试中，DeepSeek R1.1（0528 模型）达到了 70.7% Pass@2，与 Claude 4 Opus 持平。相比老版本 R1 的 56.9%，提升了 13.8 个百分点！

推理风格大变样

@xlr8harder(@xlr8harder) 发现了一个有趣的现象：

R1-0528 的推理风格变了，不是快，而是深思熟虑

多位测试者都注意到，新版本的推理过程更像人类的思考方式，会反复推敲、自我纠正。@MarkFungAI(@MarkFungAI) 表示：

R1-0528 感觉……有意识了 👀 现在能够像 Google 模型一样进行深入推理改进写作任务——更自然、格式更好独特的推理风格——不仅快速，而且深思熟虑长时间思考——每个任务最多 30-60 分钟

@roon(@roon) 测试了模型在处理复杂指令时的表现：

R1-0528 正在与其训练目标作斗争。它可以使用代码块进行分区，几乎可以在 CoT 内响应……但它无法抑制在最终响应中完成提示的本能

网友好评如潮

DeepSeek-R1-0528 的表现让全球开发者都炸了锅。

即使只有张4050 的网友也表示：异常兴奋！

@hyperbolic_labs(@hyperbolic_labs) 则第一时间在 Hugging Face 上提供了推理服务：

我们是第一个在 @huggingface 上提供这个模型服务的！

@lmsysorg(@lmsysorg) 也迅速将其加入了 Arena 测试平台：

DeepSeek R1-0528 已经登陆 Arena！🐳 听说这个版本在推理和输出方面有重大改进

开发者 @op7418(@op7418) 在深夜测试后感叹：

卧槽！DeepSeek 上货了！虽然只是一个 R1 版本更新，但这能力提升也太猛了吧！

但也有人好奇模型发布时机：@amitshar77055(@amitshar77055) 疑惑道：

deepseek r1 0528 刚刚发布……中国现在不是凌晨 2 点吗？？

这位兄弟，会不会是因为没有先给你用的原因。。。

@mayowaoshin(@mayowaoshin) 兴奋地说：

DeepSeek-R1-0528 是新的开源 LLM 之王。让我们支持开源！

有网友表示：已充钱！

日本 AI 圈同样震动：

@_akhaliq(@_akhaliq) 报道：

DeepSeek 发布 R2 而非 R1 0528。特别大的改进是推理精度和代码生成速度的提升，目前被认为是 o3 级别

中国深夜测试大军纷纷发声。@dotey(@dotey) 激动地说：

直接看效果，我就提两点，注意平面的橙色漫反射，以及控制面板的美观程度

@aiwarts(@aiwarts) 深夜测试完给出评价：

LiveCodeBench 的 DeepSeek-R1-0528 测试结果得分都快赶上 o3-high 了…太强了…

但也有人似乎发现了安全方面的问题，@benblair(@benblair) 注意到：

Deepseek R1 0528 在有争议的话题上比之前的 Deepseek 版本限制更多

开源生态的又一次胜利

最让人兴奋的是，DeepSeek-R1-0528 完全开源，采用 MIT 协议。

这意味着任何人都可以免费使用、修改和分发。

@tng_z(@tng_z) 更是直接开始研究如何进一步优化：

感谢 @tngtech 和 @xlr8harder 的出色研究和发布，我们有了一条通向自由言论 SOTA 的直接路径，而且不需要额外训练！

多个平台已经第一时间支持了这个模型。OpenRouter 上线了免费 API，还有开发者分享了免费试用方法。

@mazzzystar(@mazzzystar) 分享：

这个平台真是神了，除了已经上新了 DeepSeek R1 0528 之外，还可以用余额租 GPU

Mac 用户也有福了，@awni_hannun(@awni_hannun) 报告：

DeepSeek R1 0528 Q4 已经在 Hugging Face MLX 社区上线。在 M3 Ultra 上使用 mlx-lm 运行良好

这是 R1 还是 R2？

看到 DeepSeek-R1-0528 的表现，很多人都在问同一个问题： 这真的只是 R1 的更新吗？

@videlalvaro(@videlalvaro) 调侃道：

也许真正的 DeepSeek R2 就是我们一路走来遇到的 DeepSeek R1-0528

从性能来看，DeepSeek-R1-0528 已经具备了下一代模型的特征。在 LiveCodeBench 上几乎追平 o3，在多项测试中表现不输 Claude 4。

但 DeepSeek 依然将其命名为 R1 的更新版本，而非 R2。这或许意味着，真正的 R2 会带来更加颠覆性的突破。

一位开发者发出的感叹：

DeepSeek-R1-0528 上新之后，我吓得摔了一跤，爬起来的时候发现在地上有个纸条，上面写着：sk_lq0LiUhahykQ……bHJtRWI2PQ

日本AI 公司@Capybara_AI(@Capybara_AI) 点赞称：

中国AI业界に激震。深夜公开的 DeepSeek-R1-0528 以惊人的性能席卷中国开发者界。LiveCodeBench 的实测值逼近 OpenAI 的 GPTo3，有时甚至超越 Claude 4

或许此次的小版本更新，只不过是DeepSeek 在为真正的 R2 铺路而已！

而一个「小更新」都能如此惊艳，真正的 R2 又会强到什么程度？！

你认为呢？

（文：AGI Hunt）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31