强化学习也遇到了“天花板”?Andrej Karpathy构建了一个新算法 2025年7月14日8时 作者 AI寒武纪 RL强大但受限,Karpathy提出新范式超越传统方法。强调渐进学习效率低及与人类学习差异,构想‘补丁’和‘教训’机制实现自我提升。