-
可以得到更好的估计器;
-
可以在一个有比 NLP 更加容易和更好理解的统计结构的领域中阐释 Transformer 的工作机制。

-
论文标题:Solving Empirical Bayes via Transformers
-
论文地址:https://arxiv.org/pdf/2502.09844
估计 θ_1, . . . , θ_n,以最小化期望的均方误差(MSE)
。如果 π 是已知的,则这个最小化该 MSE 的贝叶斯估计器便是 θ 的后验均值,其形式如下:
是 x 的后验密度。由于 π 是未知的,于是估计器 π 只能近似
。这里该团队的做法是将估计器的质量量化为后悔值,定义成了
多于
的 MSE:



是什么。





(文:机器之心)