谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏

机器之心报道

编辑:大盘鸡、杜伟


凌晨三点的 AI 实验室,键盘敲击声在空荡的房间回响。屏幕上,博士生小王、小李、小赵正疯狂调整模型参数,只为在 NeurIPS 截稿前将准确率从 98.2% 刷到 98.5%。


这样的场景,在如今的 AI 学术圈早已见怪不怪。当科研沦为数据工厂里的流水线作业,当研究者们为了顶会论文疲于奔命,我们不禁要问:曾经充满探索乐趣的 AI 研究,何时已经变味儿?


大神谢赛宁在 CVPR 2025 的演讲,正是对这场学术内卷发讲出了犀利的观点:现在的人工智能研究,可能要沦为一场「有限游戏」。



谢赛宁还分享了他从《有限与无限游戏》(James P. Carse著)这本书中获得了灵感,书中的观点令人深省。这本书经常出现在商业背景中,但他被其与研究的关联性所震撼,并表示当今世界真的需要更多无限的参与者。



不少网友认为这是一个非常有趣的观点,一场精彩的演讲,同样也非常好的回答了「什么是研究」。




AI 研究到底是什么?


在这次内容分享的开头,谢赛宁就向大家介绍了 詹姆斯・卡斯(James P. Carse) 的两种分类:有限游戏和无限游戏。



这两种不同的游戏主要有以下区别:



当然,谢赛宁在这次演讲中给出了自己的回答:研究理应是一场「无限游戏」。此外,他还谈了三个主题,分别是:


  • 我是我自己的天才

  • 为什么人工智能研究正面临变成有限游戏的风险? 

  • 没有人能独自玩一场游戏 



AI 研究理应是一场「无限游戏


那么为什么 AI 研究应该是「无限游戏」,这源于它的四个特征:



抗脆弱性 


凡是能从随机事件或冲击中获得更多收益而非损失的事物,就是抗脆弱的。抗脆弱性不单单只能够抵御打击,还能够在打击中成长,变得更强。


 无限游戏因挑战而成长,研究者亦应在不确定中愈发强大。 


让科研突破变得像 「野草生长」。当研究者不再困于预设框架,而是任由好奇心驱动探索,那些意外碰撞出的灵感火花,反而能在混沌中开辟出新的道路。就像 DiT、SiT 的诞生,正是在打破常规的自由探索中,从被拒稿的「失败」里破土而出,最终成长为行业基石。



那要怎么找到属于你自己的研究想法呢?可以根据这三步走:跟随你的好奇心和热情 —— 勇于探索 —— 对意外保持开放心态,从混乱中受益!


这里还有一个要点需要注意:切忌第一天就锁定一个想法,然后写出一篇从头到尾都没变过的论文 —— 这种工作往往是最薄弱的。 


开放性 


有限游戏的参与者被训练去预判每一种未来的可能性,他们的目标在于掌控未来。与之相对,无限游戏的参与者延续游戏,是期待着被意外击中。若不再有意外发生,所有游戏都将终止。


意外会导致有限游戏落幕,却正是无限游戏得以延续的缘由。


无限游戏的参与者时刻准备迎接未来的意外,它们可能是惊吓,但也可能是惊喜。这些参与者以全然开放的姿态投入其中。开放科学遵循着相同的原则,进步并非源于对知识的固守,而是来自分享,这样一来,探索的游戏才能够持续演进、生生不息。



学术界是唯一能让你完全自由地以开放姿态游戏」的场域。

致学术界的同仁:请充分珍视这份独特的自由 —— 它是一种特权。

致产业界的伙伴:学术界能成为你强大的盟友,助你降低风险、开拓全新方向。


坚持


有限游戏的玩家可能会在目标无法达成时触发放弃行动,比如「论文被拒」、「没拿到资助」、「没成功上线」。


无限游戏的玩家则视「坚持」为一种生存方式,他们会想「这只是长远游戏的一部分。我该如何学习、适应并继续前行?」


谢赛宁用自己的作品进行了举例,他的论文《Scalable Diffusion Models with Transformers》揭开扩散模型中架构选择的意义,并为未来的生成模型研究提供经验基线。论文提出了一种基于 Transformer 架构的扩散模型,称为 Diffusion Transformers (DiTs),在图像生成任务上取得了显著成果。



但就是这样一篇神作也非一帆风顺,这篇论文曾被 CVPR 2023 拒稿。据 Meta 的 AI 科学家 Yann LeCun 透露,该论文在 CVPR 2023 的审稿过程中被认为 「缺乏创新性」而遭拒稿。


不过,这篇论文后来被 ICCV2023 接收,其提出的 DiTs) 模型为扩散模型与 Transformer 结合的研究提供了重要参考,也被认为是 OpenAI 的 Sora 模型背后的核心技术之一。


有时你需要等待 —— 但另一些时候,你得换一种能让目标实现的方法。



SiT 作为首次对基于流匹配的 DiT 模型进行规模化研究的成果,被 2024 年 CVPR 以「缺乏创新性」为由拒稿,却在经小幅修改后被 2024 年 ECCV 接收。


几个月后,Stable Diffusion 3 融合了扩散 Transformer 架构与流匹配技术,这一案例印证了学术论文不会被工业界论文 「扼杀」—— 如今 SiT 已成为该领域的常用基准。


谢赛宁还有更多类似的经历可以分享,他表示许多被引的论文在最初投稿时都没有获得最积极的评价。但他仍能坚持,并且拥抱这个过程,而这,就是无限游戏玩家的作为。


教育


如果把博士的成长看作一场有限游戏,那么它结构化的规则和可量化的目标,与科研这场无限游戏截然不同。


它以发表的论文数量、通过的资格考试以及博士论文答辩为规则。参与者往往也是固定的,你、同门和导师。获胜条件则是获得「博士」称号,所有的一切也截止在毕业时刻。


博士阶段更侧重完成既定任务以达成阶段性成就,而持续的学术创新则需要超越这种有限思维。


但博士的教育不该如此。谢赛宁假设了四条新的「游戏规则」。



  • 终身学习的修炼:博士阶段教会我们如何学习、提出有价值的问题、颠覆固有认知 —— 这些能力远超出学位本身,会伴随一生。

  • 抗脆弱力的塑造:你将学会在不确定性中从容自处,在复杂问题里深耕细作,把失败与修正当作成长的养分。

  • 从吸收到创造的蜕变:你会从知识的接收者蜕变为知识的创造者,更开始在学术之路上引领后来者。

  • 没有终局的旅程:即便戴上博士帽,科研与教育的游戏从未 「通关」。你会一直留在这场游戏中,为了探索本身而持续前行。


我是我自己的天才


谢赛宁亮出自己的观点:你可以并且应该自己掌控游戏。



首先问自己一个问题:我们为什么要发表论文?这里,知名思想家、作家 Hannah Arendt 曾说过的一段话可以作为参考,「我应该追求影响力吗?不,我想要理解。当他人理解并以我所理解的同样方式时,这会给我一种满足感和归属感。」


因此,谢赛宁提出要「设计你的游戏玩法。理解、分享并在这场无限的游戏中脱颖而出,不是通过赢得他人,而是做好自己、激励他人。也就是讲好故事、研究品味。」



研究者有时就像时装设计师,要对一张表、一条信息精雕细琢,要提出有简洁、原则性的方法,还要逐步消融实验并隔离混淆变量,为自己的项目打造一个专属主页。


谢赛宁表示,你也要为自己的论文、自己的工作、甚至是本人,打造鲜明的品牌,别再「随波逐流」。



在信息爆炸的时代,人们没有那么多时间来读论文了,研究者要注重如何实现更高效的知识共享以及自身工作的传播。


谢赛宁表示,已经有很多研究者在使用他的模板,对此表示非常感谢。



模板展示:




为什么人工智能研究正面临变成有限游戏的风险?


谢赛宁接着探讨了 AI 研究有可能陷入有限游戏困境的原因,并指出无限玩家必须要反抗。



如今,一些令人担忧的研究模式正在肆虐,比如一个主要的有限元研究玩家(如 OpenAI)发表了一篇新论文(如 4v、r1、grpo、o1、4o),接着便会出现大批的追随者以及相关论文,每个人都争相就同一个主题发表论文。


这意味着:谁发表的早,谁就能获得更多引用量和曝光度,成为赢家;谁发表的晚,往往会被忽视,成为输家。不仅如此,一旦出现一篇「奠基之作」,其他人也会快速放弃这个主题。


因此,研究者尤其是学生和早期研究者面临着巨大的压力,为了获得有限的认可而加入到激烈的竞争中已经成为必然,这令人精疲力尽且难以持续。


那么,学术激励机制是否存在缺陷呢?优先考虑发表的快慢而非研究深度或者创造力,奖励快速成功而非持续贡献。如果学界玩的是一场有限的游戏,则注定会失败。



如何破局呢?谢赛宁认为要定义新的问题,毕竟问题是层出不穷的。他以自己与 Penghao Wu 合作完成的一个项目 V * 为例进行说明,该项目引导视觉搜索作为多模态大语言模型的核心机制。



论文地址:https://arxiv.org/pdf/2312.14135.pdf


在当时,多模态 LLM 缺乏这种视觉搜索机制,从而阻碍了它们关注重要的视觉细节,尤其在处理高分辨率和视觉繁杂的图像时。他们提出的这种机制利用 LLM 中的世界知识进行高效的视觉查询,在与多模态 LLM 结合时可以增强协作推理、上下文理解以及对特定视觉元素的精准定位。


如今,OpenAI 最新版 o3 和 o4 mini 在发布的时候,在模型基准测试中加入了 V * 视觉搜索,并在标题中直接写上了利用图像来思考。



谢赛宁总结了一下:有限游戏或许能带来财富、地位、权力和认可;但无限游戏能提供更深层次、更有意义的东西。


不过,我们不能指望初级研究者从一开始就自然地接受这种放眼长远的模式,问题在于:如何才能创建一种能够孕育并维持这种模式的正反馈循环?



没有人能独自玩一场游戏



「要是研究计算机视觉,你这辈子都找不到工作。」

—— 某博客文章,2010 年


「你应该投身计算机视觉领域。CVPR 是开放包容的,从不搞学术壁垒。」

—— 某位导师,2013 年



从 2010 年的求职冷门到 2013 年的开放前沿,短短三年的转向印证了技术领域的迭代速度。10 年这句看似预言失败的评论,恰反衬出技术领域十年间的颠覆性变革 —— 如今 CV 已成为 AI 最炙手可热的分支之一,也印证了科研方向选择中「长期主义」的价值。



谢赛宁做出总结:玩家从不稀缺,更多玩家并不总意味着无限游戏。


他在演讲结尾呼吁科研进步不仅依赖个体突破,更需群体对开放协作的维护。


别把我们的学术社区视为理所当然 —— 我们每个人都肩负着让它变得强大且包容的责任。


彩蛋悬念:演讲幻灯片的结尾是超可爱 LABUBU。这次幻灯片制作超级精美,记得点开

(文:机器之心)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往