探索为什么要融合SFT和RL,以及应该怎么融合 2025年7月19日14时 作者 机器学习算法与自然语言处理 业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进
探讨Entropy(熵)机制在RL中扮演的角色 2025年6月8日14时 作者 机器学习算法与自然语言处理 MLNLP社区近期开源了关于entropy在RL中的应用文章,并分享了一些关于如何保持模型输出多样性和提升效果的研究成果。