大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。
关于国产靓仔DeepSeek-R1
和老牌强手o1
谁更强的话题从来没有停止过。
其实,在o1
之上,还有一个更厉害的o1-pro
。o1-pro
并不是一个新模型,而是o1
模型的高算力模式,类似于电脑和手机的“高性能模式”或“电竞模式”。目前o1-pro
只对开通了每月200美元的ChatGPT Pro会员开放使用。
o1-pro
在本身的问答质量上其实和o1
差不多,毕竟底层模型没有变,“智商”还是那个“智商”。但o1-pro
在问答质量的稳定性和一致性上要比o1
高不少。
比如同一个问题,你连续分别问o1-pro
和o1
4次,记录它们在4次尝试中都回答正确的比例。这个测试被称为“4/4可靠性(4/4 reliability)”测试。

这么强的o1-pro
,也有被DeepSeek-R1
打败的时候。
近期,一项编程测试开始在X平台风靡。
这个测试要求AI模型编写一个Python
脚本,实现“一个黄色小球在一个正方形区域内反弹”的动画效果,同时正方形区域在缓慢旋转。
这个测试的原始提示词如下。
write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square

就是看起来如此“平平无奇”的问题,DeepSeek-R1
完败了o1-pro
。来看结果。左边是o1-pro
的结果。右边是DeepSeek-R1
的结果。
原作者Ivan Fioravanti表示:尽管DeepSeek-R1
的碰撞效果还不完美,但这两个结果简直是天壤之别,而且一个每月要200美元(o1-pro
),另一个几乎是免费的(DeepSeek-R1
)。

随后,Ivan Fioravanti让DeepSeek-R1
对输出结果中的“碰撞效果”进行改进。这次DeepSeek-R1
的表现稍稍“拉胯”,小球直接飞出去了。
Ivan Fioravanti随即表示:好了,程序员们,2025年我们安全了!(意思是不会被AI取代了)

等等别走,还有高手。
Ivan Fioravanti的这个颇为有趣的测试很快传播开来。网友们纷纷进行了测试,分享测试结果。这其中就包括xAI的工程师Eric Zelikman。
Eric Zelikman分享了Grok 3
的测试结果。注意,这些都是首次(one shot)结果。
从结果来看,毫无疑问,Grok 3
在其中的效果是最好的。比DeepSeek-R1
还要好。
Grok 3
是xAI未发布但即将发布的最新模型,是当前的Grok 2
的升级版本。据马斯克之前的透露,Grok 3
的预训练使用了比Grok 2
高出10倍的算力,利用了100,000个NVIDIA H100 GPU的Colossus超级计算机集群进行训练。目前,Grok 3
的预训练已经完成,等待发布中。
马斯克声称:Grok 3
将成为世界上最强大的AI模型之一。
结语
坐等马斯克xAI的Grok 3
。
(文:AI信息Gap)