任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
Mobile-R1团队提出了一种新的交互式强化学习框架Mobile-R1,结合任务级奖励和多阶段训练流程,显著提升了基于视觉语言模型的移动代理能力。通过三阶段训练过程(格式微调、动作级在线训练和任务级在线训练),Mobile-R1成功处理了包括用户指令在内的复杂任务,展示了在动态环境中进行有效学习的能力。
Mobile-R1团队提出了一种新的交互式强化学习框架Mobile-R1,结合任务级奖励和多阶段训练流程,显著提升了基于视觉语言模型的移动代理能力。通过三阶段训练过程(格式微调、动作级在线训练和任务级在线训练),Mobile-R1成功处理了包括用户指令在内的复杂任务,展示了在动态环境中进行有效学习的能力。