规则化奖励机制归档 - 每时AI

Search-R1：高效、可扩展的强化学习训练框架

2025年3月2日8时作者 NLP工程化

高效、可扩展的强化学习训练框架Search-R1，支持3B规模的基础LLM，通过规则化奖励机制让LLM自主学会推理和搜索，提供完整的训练流程和工具支持。