批量大小归档

社区供稿 | 3700 次预训练总结超参规律，开源海量实验，告别盲猜

2025年4月17日14时作者 Hugging Face

参数优化至关重要。为了探究最佳超参数的规律，我们开展了大规模的实证研究，通过在不同配置上进行网格搜索

2024年12月1日22时作者 PaperWeekly

本文探讨了Adam优化算法中的beta1参数对学习率与批量大小之间关系的影响，发现其会使得Surge现象出现的概率降低，并且在β1接近1时，结果趋向于SignSGD。