任务级奖励提升AppAgent思考力,淘天提出Mobile-R1,3B模型可超32B
MLNLP社区介绍了采用多回合、任务导向的交互式强化学习框架Mobile-R1,旨在提高移动代理在复杂环境中的适应性和探索能力,并提出三阶段训练流程提升模型表现。团队通过高质量轨迹数据集进行格式微调、动作级和任务级训练,最终显著提升了模型在多种基准上的性能。
MLNLP社区介绍了采用多回合、任务导向的交互式强化学习框架Mobile-R1,旨在提高移动代理在复杂环境中的适应性和探索能力,并提出三阶段训练流程提升模型表现。团队通过高质量轨迹数据集进行格式微调、动作级和任务级训练,最终显著提升了模型在多种基准上的性能。