强化学习也遇到了“天花板”?Andrej Karpathy构建了一个新算法
RL强大但受限,Karpathy提出新范式超越传统方法。强调渐进学习效率低及与人类学习差异,构想‘补丁’和‘教训’机制实现自我提升。
RL强大但受限,Karpathy提出新范式超越传统方法。强调渐进学习效率低及与人类学习差异,构想‘补丁’和‘教训’机制实现自我提升。
Andrej Karpathy提出LLM学习中缺失的环节是’系统提示词学习’。他认为人类的学习更多是通过明确的语言记住解决问题的方法,而非零散的记忆。Karpathy还分析了Claude系统的惊人提示词内容及其潜在应用价值。