绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世 上午11时 2025/05/08 作者 机器之心 rning with Verifiable Rewards(RLVR)范式下涌现出一批 「Zero