on-policy RL 归档

投奔小扎，Jason Wei连发两篇博文公布“屠龙术”：一个公式看透AI，一条心法指引人生

2025年7月16日16时作者 AI寒武纪

Jason Wei 提出了‘验证者定律’，指出训练 AI 解决任务的难易程度与其可验证性成正比。他还提出了 ‘On-Policy RL’ 的概念，认为要想超越他人，必须走自己的路，并直面环境给予的风险与回报。

2025年5月5日23时作者机器之心

AI模型训练中常见的两种策略——模仿学习和强化学习各有弊端。上海、西湖大学等团队提出LUFFY，结合两者优势，通过混合策略和策略塑形函数提升推理能力，实现即学即练的效果，已在GitHub开源。