复杂移动环境归档

任务级奖励提升AppAgent思考力，淘天提出Mobile-R1，3B模型可超32B

MLNLP社区介绍了采用多回合、任务导向的交互式强化学习框架Mobile-R1，旨在提高移动代理在复杂环境中的适应性和探索能力，并提出三阶段训练流程提升模型表现。团队通过高质量轨迹数据集进行格式微调、动作级和任务级训练，最终显著提升了模型在多种基准上的性能。