
如今的北京大学助理教授、 ICLR 2023 杰出论文奖得主贺笛早年曾师从王立威与刘铁岩两位老师,这让他练就了独特的学术嗅觉,能够自如跨越理论和应用的边界解决问题。从 2015 年起,他就保持着每天阅读 Arxiv 论文的习惯。经年累月的积累,帮助他构建起高效的论文筛选框架,能快速抓住研究前沿问题。
然而,只靠阅读文献还远远不够,实践才是检验真理的唯一标准。
为突破Transformer的训练鲁棒性问题,他曾用4块P100显卡进行了为期一月的密集实验,累计完成近千组参数测试。无数次的尝试与分析后,他终于发现调整Layer Norm的位置可显著提升训练稳定性。这一改进,为后续LLaMA、DeepSeek等大模型的稳定高效训练提供了关键保障。
在图神经网络领域的研究中,贺笛没有盲目追随学界聚焦的“图同构” 问题,而是将目光投向更具现实意义的双连通性判定。研究过程中,他带领团队发现主流的图神经网络模型甚至无法解决最基本的双连通性判定。基于此,他以 Transformer 架构为基础,构建了新的网络结构,并提出了全新的理论工具。凭借相关研究成果,他最终荣获顶会杰出论文奖。
贺笛以此律己,也以此律人。谈及学生培养,他始终强调实践出真知,建议对研究方向感到迷茫的学生通读顶级会议论文,“只有亲自尝试过,才知道是否适合自己”。在选拔学生时,他尤为看重三个维度:是否对该领域真正感兴趣,是否具备持续投入的意愿,以及是否能在团队协作中激发创新的火花。他常对学生说:“要永远走在导师前面“,鼓励学生主动探索,在既有方法效果不佳时,大胆尝试其他途径。
贺笛的研究经历充分证明:研究如奔涌不息的长河,唯有锁定真问题、躬身实践的人,才能在学术浪潮中勇立潮头。以下为本期的智源专访。
贺笛,北京大学助理教授、博士生导师,智源学者。毕业于北京大学,曾担任微软亚洲研究院主管研究员。研究方向涉及自然语言处理、图神经网络及利用机器学习技术探索科学领域,谷歌学术引用量超过一万。在机器学习顶级国际会议 ICML,NeurIPS,ICLR 上发表数十篇论文。长期担任机器学习顶级会议领域主席工作。其团队获得了 ICLR 2023 杰出论文奖和 ICLR 2024 杰出论文奖提名。
双导师的学术基因解码:从理论之锚到应用之帆
李梦佳:在研究生涯中,对您影响最大的人是谁?
贺笛:对我影响最大的是两位科研导师——北大的王立威老师和微软研究院的刘铁岩老师。他们的研究方向和风格截然不同。王立威老师擅长理论研究,对学术问题的洞察深刻,总能一针见血地提出关键问题;刘铁岩老师则聚焦算法应用,善于从实际场景中挖掘“卡脖子” 难题。但两位老师都有一个共同目标,就是做出更具影响力的成果。
在他们的指导下,我既获得了双重助力,也面临不同维度的要求。这使得我在开展工作时必须兼顾两方面:既要让理论研究者认可我的研究具有洞见性,又要让应用领域的人看到实际价值。这种双重标准对我的工作和解决方案提出了更高要求,也逐渐形成了我的独特研究路径。从理论视角看,我的研究问题源于实际应用场景,却采用数学方法进行严谨求解;从应用视角看,我聚焦行业痛点,却通过理论分析提供解决方案。可以说,正是两位老师的不同影响相互碰撞,才塑造了我现在的工作方式。

李梦佳:为何对模型架构和算法理论产生浓厚兴趣?
贺笛:主要有两方面原因。一方面,受我此前提到的两位导师影响。另一方面,与我个人习惯相关。我一直保持着阅读论文的习惯,现在也坚持每天浏览 Arxiv。随着阅读量的积累,我发现有些研究成果看似不起眼,却能在历史长河中沉淀下来;有些曾被一度视为重要的内容,反而逐渐被淘汰。通过对学术发展脉络的观察,我开始思考关键研究方向。比如ResNet、Transformer 等经典架构为何能延续至今?下一代模型架构会是什么形态?背后的理论基础又是什么?这些理论能不能起到指导算法的作用?正是在这样的思考中,我逐步明确了自己的研究方向。
02
文献海洋的冲浪指南:90%的Arxiv论文只需扫一眼
李梦佳:您阅读 Arxiv 论文时会关注哪些要点?面对海量文献,如何筛选值得精读的内容?
贺笛:我的论文阅读习惯形成于 2015 年。当时 NIPS 会议全年收录的论文约 400 篇,两个月就能通读完。到 2016 年,NIPS 中稿量增加到了 600 篇,但因为此前积累的阅读基础,再看新一年的论文时,很容易判断新论文的来源。比如它延续了过往哪类研究,解决了哪些问题,采用了何种方法,或是提出了哪些新议题。如今 Arxiv 文献虽然海量增长,但知识储备的积累让筛选变得高效。我每天会浏览标题和摘要,90% 的论文只需扫一眼作者、研究问题及方向即可略过,因为要么不感兴趣,要么与已知领域高度重合。本质上,阅读论文的过程,也是用知识储备构建筛选框架的过程。
李梦佳:您会看所有的顶会论文吗?
贺笛:如果在现场的话,还是看看吧,毕竟来都来了。
03
模型江湖的门派之争:扩散模型适合写作文,AR 模型更会做数学证明题
李梦佳:扩散模型和 AR 模型各自的适用场景与优缺点是什么?
贺笛:各有优劣。理论上来讲,扩散模型更适合解决对输出平滑性、流畅性有要求的场景。比如生成图片或者高考作文。但是如果考虑准确性,比如结构严谨的数学证明与逻辑推理,可能自回归模式会更适合。我们理论证明数学推理方面,扩散模型目前很难达到和AR 模型一样的速度和效果。
李梦佳:所以AR 模型在工业界更有潜力?
贺笛:在纯自然语言场景中,如果追求数学推理、代码生成的速度与准确率,AR 模型更优。如果只是日常对话,比如说就是聊天,要达到同样好的效果,扩散模型会更快。
李梦佳:您的研究方向有改变吗?
贺笛:对我来说,研究就是一条非常宽的河,任何一个研究方向永远是往前流的。与此同时,你看每一个时间点,水流的方向永远都不同。不管水流速度是湍急还是平缓,不管水流方向是直行还是转弯,你要做的只不过是在这条河的前面,永远在头部就够了。换句话说就是,你永远看的是当前的研究方向最重要的东西是什么,然后跟着最前面的那些水滴一起往前冲就可以了,我觉得是这个样子。
第一,你要保证你在河里;第二尽量保证在河前面的部分。只要保证你不被冲到岸边,你的工作永远有生命力。所以不存在什么转变和延续,因为它是一个连续的、不断地在演变的过程。
04
最佳论文背后:强大的神经网络不能解决简单的双连通性判定

图注:贺笛所在团队获ICLR 2023杰出论文奖
贺笛:神经网络的强大源于 80 年代被证实的 “万能逼近定理”—— 它能拟合任意连续函数。但图神经网络的输入是拓扑结构,此时一个关键问题浮出水面:当连续的神经网络处理离散的拓扑结构时,会有问题吗?连续的神经网络能否能解决图论中的离散问题?此前领域内的研究几乎都围绕“图同构判定”展开分析,但该判定问题与应用脱节。我们转而从图论中筛选更具实际价值的问题,比如“双连通性”。双连通性实际上是一个非常本质的问题,它能够辐射到许多的实际的场景,比如生物、社交网络、交通。我们的研究发现尽管当时图神经网络架构繁多,却无法解决最基本的双连通性判定。
于是我们基于 Transformer 设计新架构,提出新的判定准则,并验证了过往模型的局限性。由于理论工具的创新性和对实际问题的针对性,这项工作获得了杰出论文奖。

图注:贺笛所在团队获ICLR 2024杰出论文奖提名
后续我们进一步探索“子图计数”,它涉及到“图同态”的概念。我们围绕着“图同态”重新去看,过去这些图神经网络,它们的表达能力是什么?到底有哪些图神经网络它们之间是有包含关系的,哪些是没有包含关系的?构建了更形式化的理论体系。
可以认为这两篇论文一脉相承,有了第一篇杰出论文奖的经验,后续工作开展的更自然一些。回顾获奖核心,在于突破了“脱离应用谈理论” 的惯性,以原始创新解决真实场景的基础问题。
李梦佳:获得杰出论文奖背后,有哪些难忘的经历?
贺笛:最初我们其实聚焦于传统的 “图同构” 研究,但探索寻找更贴近现实的子问题。当时我注意到“平面图同构”,这个子问题很有实际价值,比如化学分子就是典型的平面图。平面图同构判定的经典解法是一个图灵奖级别的工作,算法的第一步正是“双连通性判定”—— 这一发现让我们意识到双连通性是更本质的研究方向,进而才展开了后续关于图神经网络表达能力的突破性工作。
李梦佳:这项获得杰出论文奖研究的实际应用前景是什么?
贺笛:它在理论上提供了新的表达能力框架,引起大家向更应用的角度去分析图神经网络的上限。
李梦佳:除此之外,最具有代表性的研究成果是什么?
贺笛:比较有代表性的就是围绕Transformer去做的一些设计。早期谷歌开源的 Transformer 超参数已经高度优化,在预设翻译任务上表现优异,但更换数据集后,模型对超参的敏感性很强—— 随意设置超参很难得到理想结果,甚至会导致优化失败。当时我意识到,若想让模型具备持久生命力、应对复杂任务,训练稳定性是关键。于是我用 4 块 P100 显卡连续一个月,跑了近千组实验,系统性修改模型的每个细节,最终发现将 Layer Norm 的位置调换后,训练稳定性显著提升。这个发现引发了更深层的思考:Layer Norm 究竟在模型中扮演什么角色?为何它对效果影响如此关键?后续我们据此发表了相关论文。如今,从 LLAMA 到国内的 DeepSeek 等大模型,其基础架构仍延续这一设计思路,核心改动多基于此展开。
李梦佳:如何看待 Mamba 等替代 Transformer 的架构创新?
贺笛:这取决于任务的挑战难度。如果问题场景简单,比如问题短、推理步数少,Mamba等高效架构不会损失性能;但如果目标是训练能解决复杂通用问题的模型,Mamba 等高效的结构对历史信息的压缩可能导致关键信息丢失,无法解决问题。这种情况下Transformer才会体现出它的优势。
05
青年指引:迷茫就去读论文,永远走在你的导师前面
李梦佳:在人才培养方面,您如何指导学生,尤其是刚进组的新人?
贺笛:对于刚进组或有意加入团队的学生,我有三个核心要求:
第一,明确自身兴趣方向。这个其实很简单,比如很多学生可能笼统回答“对人工智能感兴趣”等等。
第二,验证兴趣的真实性。真正的兴趣需要时间投入来佐证。比如学生说喜欢踢球,那么他是不是每周都出现在绿茵场?学生说喜欢打游戏,那么他是不是每个周末都在电脑前?如果一个声称喜欢踢球,却从没在绿茵场出现过的学生,他的话是否可信?类似的,如果学生说对某个方向感兴趣,应该能回答:该领域国际顶尖研究组有哪些?影响力最大的论文有哪些?这些论文分别解决了什么问题?还存在哪些未解决的问题?最近这个领域最新的研究问题是什么?如果学生能清晰阐述,说明他已经主动投入。对于这种学生,老师只要引导就行;反之,如果学生在他声称的兴趣方向无法回答这些基本问题,说明他并不真的感兴趣,培养会非常困难,这也是我筛选学生的重要标准。
第三,具备团队协作的化学反应。当下科研工作几乎都需要团队合作,没有成果是单人独立完成的。因此学生需能与组内高年级、同级甚至低年级成员有效讨论、思想碰撞。只有同时满足“明确兴趣方向”“验证兴趣投入”“具备团队协作能力” 这三点,我才认为其适合加入团队开展研究。
李梦佳:如果学生确实比较迷茫,没有找到自己的研究方向,会怎么去引导他?
贺笛:简单。把当前最近的一个会议的所有 paper 都读一遍就行了。兴趣需要尝试的,你不尝试怎么知道你是否感兴趣?就跟吃饭一样,我如果没有去过广东,没有吃过广东菜,你问我说你喜欢吃广东菜吗?我很难回答,因为我不知道。只有我去了当地,去吃过一些餐厅,才知道自己喜不喜欢。这个只有你自己亲身体会。
李梦佳:对于学生或者是其他更年轻的研究者,您有没有其他成长方面的建议?
贺笛:你需要永远走在你的导师前面。做事的主动性非常重要,真正的成长,来自于持续主动地思考和推进工作,甚至去“推动”导师的节奏。我见过的发展最好的学生,都是那些能走在导师前面的;而那些始终等待导师指令的学生,往往难以取得实质性的进步。
(文:机器学习算法与自然语言处理)