性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 已开源 2025年7月1日11时 作者 量子位 招商局狮子山人工智能实验室的研究团队通过RLVR范式让模型自主进化出探索、验证与记忆能力,显著提升了模型在多个基准测试上的性能。