Search-R1:高效、可扩展的强化学习训练框架 2025年3月2日8时 作者 NLP工程化 高效、可扩展的强化学习训练框架Search-R1,支持3B规模的基础LLM,通过规则化奖励机制让LLM自主学会推理和搜索,提供完整的训练流程和工具支持。