
©作者 | 刘强、楚梦渝
单位 | 慕尼黑工业大学、北京大学
研究方向 | 深度学习
,能够防止由于冲突导致优化陷入某个特定损失项的局部最小值。ConFIG 方法可以在数学上证明其收敛特性并具有以下特点:-
最终更新梯度
与所有损失项的优化梯度均不冲突。 -
在每个特定损失梯度上的投影长度是均匀的,可以确保所有损失项以相同速率进行优化。 -
长度可以根据损失项之间的冲突程度自适应调整。

论文标题:
ConFIG: Towards Conflict-free Training of Physics Informed Neural Networks
论文链接:
https://arxiv.org/abs/2408.11104
代码链接:
https://github.com/tum-pbs/ConFIG

ConFIG: 无冲突逆梯度方法
个损失函数
,其对应梯度为
。我们希望找到一个优化方向
,使其满足:
。即所有损失项在该方向上都能减少,从而避免梯度冲突。
。由于
是一个无冲突梯度,
应为一个正向分量矢量。同样地,我们也可以预先定义一个正向分量矢量
,然后直接通过矩阵的逆运算求得无冲突更新梯度
,即
。通过给定不同的正向分量矢量
,我们得到由一系列不同
组成的无冲突优化区间。
,其中
表示第
个梯度向量的单位向量。
矢量的每个分量代表了每个梯度
与最终更新梯度
之间的余弦相似度。因此,通过设定
分量的不同值可以直接控制最终更新梯度对于每个损失梯度的优化速率。在 ConFIG 中,
被设定为单位矢量以确保每个损失具有相同的优化强度从而避免某些损失项的优化被忽略。
, 其中
为每个梯度与最终更新方向之间的余弦相似度。
-
使用梯度的动量(指数移动平均)代替梯度进行 ConFIG 运算。
-
在每次优化迭代中,仅对一个或部分损失进行反向传播以更新动量。其它损失项的动量采用之前迭代步的历史值。
往往要比反向传播总损失
更快。这在物理信息神经网络中尤为明显,因为边界上的采样点通常远少于计算域内的采样点。在我们的实际测试中,M-ConFIG 的平均计算成本为基于权重方法的 0.56 倍。
结果:更快的收敛,更优的预测
的同时大幅降低了边界和初始条件损失
,实现了 PDE 训练精度的整体提升。




多任务学习
、平均排名
中均表现最佳。

结论
本文由慕尼黑工业大学与北京大学联合团队撰写。
第一作者刘强为慕尼黑工业大学博士生。第二作者楚梦渝为北京大学助理教授,专注于物理增强的深度学习算法,以提升数值模拟的灵活性及模型的准确性和泛化性。
通讯作者 Nils Thuerey 教授(慕尼黑工业大学)长期研究深度学习与物理模拟,尤其是流体动力学模拟的结合,并曾因高效流动特效模拟技术获奥斯卡技术奖。目前,其团队重点关注可微物理模拟及物理应用中的先进生成式模型。
(文:PaperWeekly)