Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限 下午2时 2025/04/27 作者 机器学习算法与自然语言处理 MLNLP社区是国内外知名的人工智能社区,致力于促进学术交流。该领域内的三篇论文讨论了强化学习在大模型训练中的作用,并指出模型的推理能力大部分已在预训练阶段形成,RL更多起到优化选择路径的作用。
为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理 下午4时 2025/03/05 作者 机器之心 我们也能让 Llama 学会自我改进。 给到额外的计算资源和「思考」时间,为什么有的模型能好好利用,