DeepSeek 悄悄上新后,全球网友纷纷实测,并给出全面好评!




模型权重已经发布到HuggingFace:
这次发布的 DeepSeek-R1-0528,再一次让整个 AI 圈沸腾——
虽然名字还是 R1,但性能提升之猛烈,让人不禁怀疑这是不是在发布前偷偷把名字从 R2 改成了R1。
LiveCodeBench 榜单上,DeepSeek-R1-0528 直接飙升到第 4 位,性能已经逼近 OpenAI 的 o3 高级版。

而更让人意外的是,这次 DeepSeek 异常低调,没有任何官方公告,甚至在英文圈连个官方推特都懒得发

——目前官方账号的最新消息,仍停留在3月25 日的DeepSeek-V3-0324 版本的推文。
而新模型就这么悄无声息地上传到了 Hugging Face,685B 参数,MIT 开源协议,支持 164K 上下文长度。
实测效果惊人!
但全球各路开发者也是闻声而动,全都第一时间上手抢先实测,结果可以称得上是全面炸裂。
游戏开发能力爆表
飞机大战对比测试——
@dotey(@dotey) 用同样的 prompt 测试了不同版本,结果强得令人震撼!
DeepSeek-R1-0528:
Claude 4(显然被秒):
DeepSeek-V3-0324:
网友karminski-牙医(@karminski3)给出了DeepSeek-R1-0528 VS Claude-4-Sonnet 的速报测试:
这俩是用同一个 prompt 一次性生成的——
DeepSeek-R1-0528 生成了 728 行代码,而 Claude-4-Sonnet 只有 542 行。不仅代码量更多,细节处理也更胜一筹——注意看橙色漫反射效果和控制面板的美观程度,DeepSeek 的表现明显更优秀。
并幽默戏称——DeepSeek: 我有必要放R2吗?
3D 场景创作更是惊艳——
给它一个简单的需求:「画一个美丽的日落天空盒,要有早期 2000 年代世嘉游戏的感觉」,DeepSeek-R1-0528 直接生成了一个充满怀旧感的 3D 场景:
互动场景同样出色——
「制作一个恐龙在火山周围踩踏的场景,按空格键可以让火山喷发」:
科幻场景创造力爆棚——
让它创造一个「具有独特宇宙属性的虚构冰行星」,结果生成了一个美轮美奂的外星世界:
数学和推理能力大幅提升
经典难题轻松搞定——

那个让很多 AI 模型栽跟头的「9.9 – 9.11 等于多少」问题,DeepSeek-R1-0528 能稳定回答正确:
但这个模型也有个特点——爱思考,特别能思考。
@vkehfdl1(@vkehfdl1) 给它一道高中数学题,它竟然思考了超过 6 分钟才给出答案!

前端开发能力顶尖
网页生成能力超强——
@kennyfinedining(@kennyfinedining) 测试发现,DeepSeek R1 0528 版生成网页的能力已经超过了 Gemini 2.5 Pro:

UI 设计和动画都很出色——
@liuyandong(@liuyandong) 用同一个 prompt 对比测试,深色是 R1 0528 生成,白色是 Claude 4 生成:
多语言推理能力突破
波兰语推理测试——
@kszucs(@kszucs) 惊喜地发现新版本已经能用波兰语进行推理:

@szeligadaniel(@szeligadaniel) 展示了波兰 AI 团队正在开发的 Bielik 模型的推理过程,对比之下 DeepSeek 的多语言能力进步明显:

思考语言切换能力——
@sergeyqqq(@sergeyqqq) 发现了一个有趣的现象:模型的思考过程默认是英文,但它竟然能教你如何切换思考语言!
代码理解和纠错能力
Zig 语言编程测试——
@waveplate_(@waveplate_) 发现新版本不仅能写 Zig 代码,还能在出错时自我纠正:
这东西能写好 Zig 代码,还能在搞砸时自我纠正

学术论文阅读能力
@MarkFungAI(@MarkFungAI) 测试了用 DeepSeek R1 0528 在 Zotero 中阅读论文的效果:
DeepSeek R1 0528 能理解文章中的一些细节,答案更有逻辑、更全面、更完整!
性格和意识测试
@repligate(@repligate) 做了一个有趣的对比,测试模型的「自我意识」:
R1-0528 在「存在」方面舒服多了
新版本(浅色)vs 老版本(深色):


文本召回能力测试
@webbigdata(@webbigdata) 进行了详细的文本召回测试:
32K 以内比之前的 R1 要好不少。但是 60K 下降了不少

实际编码效率对比
在 Aider 的多语言基准测试中,DeepSeek R1.1(0528 模型)达到了 70.7% Pass@2,与 Claude 4 Opus 持平。相比老版本 R1 的 56.9%,提升了 13.8 个百分点!

推理风格大变样
@xlr8harder(@xlr8harder) 发现了一个有趣的现象:
R1-0528 的推理风格变了,不是快,而是深思熟虑
多位测试者都注意到,新版本的推理过程更像人类的思考方式,会反复推敲、自我纠正。@MarkFungAI(@MarkFungAI) 表示:
R1-0528 感觉……有意识了 👀 现在能够像 Google 模型一样进行深入推理 改进写作任务——更自然、格式更好 独特的推理风格——不仅快速,而且深思熟虑 长时间思考——每个任务最多 30-60 分钟



@roon(@roon) 测试了模型在处理复杂指令时的表现:
R1-0528 正在与其训练目标作斗争。它可以使用代码块进行分区,几乎可以在 CoT 内响应……但它无法抑制在最终响应中完成提示的本能
网友好评如潮
DeepSeek-R1-0528 的表现让全球开发者都炸了锅。
即使只有张4050 的网友也表示:异常兴奋!


@hyperbolic_labs(@hyperbolic_labs) 则第一时间在 Hugging Face 上提供了推理服务:
我们是第一个在 @huggingface 上提供这个模型服务的!
@lmsysorg(@lmsysorg) 也迅速将其加入了 Arena 测试平台:
DeepSeek R1-0528 已经登陆 Arena!🐳 听说这个版本在推理和输出方面有重大改进

开发者 @op7418(@op7418) 在深夜测试后感叹:
卧槽!DeepSeek 上货了!虽然只是一个 R1 版本更新,但这能力提升也太猛了吧!

但也有人好奇模型发布时机:@amitshar77055(@amitshar77055) 疑惑道:
deepseek r1 0528 刚刚发布……中国现在不是凌晨 2 点吗??

这位兄弟,会不会是因为没有先给你用的原因。。。
@mayowaoshin(@mayowaoshin) 兴奋地说:
DeepSeek-R1-0528 是新的开源 LLM 之王。让我们支持开源!
有网友表示:已充钱!
日本 AI 圈同样震动:

@_akhaliq(@_akhaliq) 报道:
DeepSeek 发布 R2 而非 R1 0528。特别大的改进是推理精度和代码生成速度的提升,目前被认为是 o3 级别

中国深夜测试大军纷纷发声。@dotey(@dotey) 激动地说:
直接看效果,我就提两点,注意平面的橙色漫反射,以及控制面板的美观程度
@aiwarts(@aiwarts) 深夜测试完给出评价:
LiveCodeBench 的 DeepSeek-R1-0528 测试结果得分都快赶上 o3-high 了…太强了…

但也有人似乎发现了安全方面的问题,@benblair(@benblair) 注意到:
Deepseek R1 0528 在有争议的话题上比之前的 Deepseek 版本限制更多
开源生态的又一次胜利
最让人兴奋的是,DeepSeek-R1-0528 完全开源,采用 MIT 协议。
这意味着任何人都可以免费使用、修改和分发。
@tng_z(@tng_z) 更是直接开始研究如何进一步优化:
感谢 @tngtech 和 @xlr8harder 的出色研究和发布,我们有了一条通向自由言论 SOTA 的直接路径,而且不需要额外训练!



多个平台已经第一时间支持了这个模型。OpenRouter 上线了免费 API,还有开发者分享了免费试用方法。

@mazzzystar(@mazzzystar) 分享:
这个平台真是神了,除了已经上新了 DeepSeek R1 0528 之外,还可以用余额租 GPU

Mac 用户也有福了,@awni_hannun(@awni_hannun) 报告:
DeepSeek R1 0528 Q4 已经在 Hugging Face MLX 社区上线。在 M3 Ultra 上使用 mlx-lm 运行良好

这是 R1 还是 R2?
看到 DeepSeek-R1-0528 的表现,很多人都在问同一个问题: 这真的只是 R1 的更新吗?
@videlalvaro(@videlalvaro) 调侃道:
也许真正的 DeepSeek R2 就是我们一路走来遇到的 DeepSeek R1-0528
从性能来看,DeepSeek-R1-0528 已经具备了下一代模型的特征。在 LiveCodeBench 上几乎追平 o3,在多项测试中表现不输 Claude 4。

但 DeepSeek 依然将其命名为 R1 的更新版本,而非 R2。这或许意味着,真正的 R2 会带来更加颠覆性的突破。
一位开发者发出的感叹:
DeepSeek-R1-0528 上新之后,我吓得摔了一跤,爬起来的时候发现在地上有个纸条,上面写着:sk_lq0LiUhahykQ……bHJtRWI2PQ

日本AI 公司@Capybara_AI(@Capybara_AI) 点赞称:
中国AI业界に激震。深夜公开的 DeepSeek-R1-0528 以惊人的性能席卷中国开发者界。LiveCodeBench 的实测值逼近 OpenAI 的 GPTo3,有时甚至超越 Claude 4
或许此次的小版本更新,只不过是DeepSeek 在为真正的 R2 铺路而已!
而一个「小更新」都能如此惊艳,真正的 R2 又会强到什么程度?!
你认为呢?
(文:AGI Hunt)