Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器



  新智元报道  

编辑:LRST
【新智元导读】Adam优化器是深度学习中常用的优化算法,但其性能背后的理论解释一直不完善。近日,来自清华大学的团队提出了RAD优化器,扩展了Adam的理论基础,提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。

今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

从计算机视觉到自然语言处理,从强化学习到生成模型,Adam以其卓越的自适应能力,成为当代深度学习模型的「标配」优化器,堪称AI领域的「万金油」。

Diederik Kingma是谷歌的一名研究科学家,曾经是OpenAI初创团队的一员,期间领导了基础算法研究团队。2018年,Kingma跳槽到谷歌,加入Google Brain(现为Google DeepMind),专注于生成式模型研究,包括扩散模型和大型语言模型。他是变分自编码器(VAE)、Adam优化器、Glow和变分扩散模型等工作的主要作者。

Jimmy Ba是深度学习教父Geoffrey Hinton的得意门生,于2018年获得University of Toronto的博士学位。作为Hinton学术家族的核心成员,他在ICLR、NeurIPS等顶级会议发表多篇开创性论文(其中Adam优化器论文引用量已突破21万次),堪称AI领域最具影响力的青年科学家之一。

Adam优化器虽在工程实践中表现优异,但长期以来缺乏对其优异性能的理论解释。

近期,清华大学李升波教授课题组发文 《Conformal Symplectic Optimization for Stable Reinforcement Learning》,解析了这一「黑箱」算法的优化动力学机理。

该课题组的研究发现了神经网络优化过程与共形哈密顿系统演化存在「完美」的数学对偶性,揭示了Adam优化器暗藏的「相对论动力学」和「保辛离散化」本质,并由此提出了训练更加稳定、性能更加优秀的RAD优化器(Relativistic Adaptive Gradient Descent),这一研究工作为神经网络优化动力学的分析及全新算法的设计开辟了新航道。


Adam优化器的历史与算法特点

神经网络的优化主要依赖梯度下降方法。自20世纪50年代随机梯度下降(SGD)首次提出以来,优化算法经历了多次重要演进。从动量方法如SGD-M和NAG,到自适应方法如AdaGrad、RMSprop,优化算法的「演变之战」已持续超过70年。

2014年,Diederik Kingma与Jimmy Ba联合提出了Adam优化器(算法1),将神经网络优化算法的性能向前推进了一大步。该算法的核心设计思想是融合Momentum和RMSProp两大优化方法的优势:

通过指数移动平均计算一阶动量vk+1和二阶动量yk+1,分别估计梯度的一阶矩(即梯度期望)和原始二阶矩(近似于梯度方差)。针对动量零初始化导致的估计偏差,通过引入偏差修正技术,Adam兼具了快速收敛与稳定训练的双重特性。

从算法原理看,Adam优化器通过动态维护一阶动量(方向修正)和二阶动量(步长调节),实现了参数更新的双重自适应:既优化了更新方向,又自动调整了有效学习率,显著加速了网络收敛。其偏差修正机制有效消除了训练初期的估计偏差,确保了参数更新的准确性。

此外,Adam展现出优异的超参数鲁棒性,在大多数场景下无需精细调参即可获得稳定性能。正是这些优势使其成为各类监督学习、强化学习任务的首选优化器。

Adam优化器为何具备如此出色的训练性能?至今仍缺乏对其优化动力学机理的深入解释,这已成为限制新一代神经网络优化算法设计的关键障碍。


梯度下降过程与动力学演化的对偶机制

受中国科学院院士冯康先生和美国国家三院院士M. I. Jordan的研究启发(前者开创了哈密顿算法与保辛离散化理论,后者成功将保辛理论引入最优化领域),清华大学的研究团队提出了一种神经网络优化算法的性能理论解释框架:

第一步,将神经网络的参数优化过程对偶为共形哈密顿系统的状态演化过程,建立参数梯度下降与系统能量耗散之间的内在联系。

第二步,利用保辛机制实现共形哈密顿系统的离散化,将离散系统的优势动态特性映射到神经网络的优化过程,从而完成对算法优化动力学的机理解释。

研究发现,神经网络梯度下降过程与共形哈密顿离散系统的演化呈现高度相似性,通过将网络参数θ对偶为系统状态q,目标函数J(θ)对偶为系统势能U(q),可直接建立二者间的对偶关系。

研究者据此开发了一个全新的网络优化算法开发框架,包含两个核心步骤:

1)动能建模:通过设计合适的动能项T(p)以嵌入期望的动态特性;

2)保辛离散:采用保辛离散方法以精确保持系统的动力学性质。


RAD优化器的设计思路与性能对比

进一步地,研究者将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程,通过引入狭义相对论的光速最大原理,抑制了网络参数的异常更新速率,同时提供了各网络参数的独立自适应调节能力,从理论上引入了对网络训练稳定性和收敛性等动态特性的保障机制。

这一工作使得研究者提出了既具备稳定动力学特性又适用于非凸随机优化的神经网络优化算法,即RAD优化器(算法2)。

研究发现,当速度系数σ=1且保辛因子ζk取固定小值ε时,RAD优化器将退化为Adam优化器,揭示了Adam优化器的动力学机理,说明了Adam优化器是新提出的RAD优化器的一个特例。

相比于Adam优化器,RAD优化器具有更加优异的长期训练稳定性,这是因为:

1)优化前期:RAD具有类似Adam的快速收敛特性,能够高效定位到最优解的邻域;

2)优化后期:RAD的保辛结构逐渐增强,具备维持共形哈密顿系统动态特性的能力,确保算法具备更加优异的抗干扰能力。

值得注意的是,Adam中的有理因子ε是一个「人为引入」的小常数,用于避免分母为零的数值错误。而RAD的保辛因子ζ与哈密顿系统的「质量×质能」(即m2c2)相关,具有明确的物理根源。

这为之前的经验性发现(即适度增加ε可提升Adam性能)提供了理论性解释:增大ε使得优化过程更加接近原始的动力学系统。该研究成果不仅深化了Adam与动力学系统的本质联系,同时也为分析其他主流自适应优化器(如AdaGrad、NAdam、AdamW等)提供了普适性的框架。

为了评估RAD优化器的性能,研究者在5种主流深度强化学习(DRL)算法(包括DQN、DDPG、TD3、SAC和ADP)和12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)中开展了广泛测试,并与9种主流神经网络优化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)进行了比较,结果表明RAD综合性能均排名第一。

特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%

(文:新智元)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往