Off-policy 归档 - 每时AI

探索为什么要融合SFT和RL，以及应该怎么融合

2025年7月19日14时作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

探讨Entropy(熵)机制在RL中扮演的角色

2025年6月8日14时作者机器学习算法与自然语言处理

MLNLP社区近期开源了关于entropy在RL中的应用文章，并分享了一些关于如何保持模型输出多样性和提升效果的研究成果。