结构化奖励设计归档 - 每时AI

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

2025年4月28日16时作者机器之心

钱成博士提出了ToolRL方法，通过强化学习解决了大语言模型在使用工具时的泛化问题。该研究已在多个学术会议上发表，并由ACL Area Chair钱成领导。