任务级奖励归档

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

2025年7月20日12时作者量子位

Mobile-R1团队提出了一种新的交互式强化学习框架Mobile-R1，结合任务级奖励和多阶段训练流程，显著提升了基于视觉语言模型的移动代理能力。通过三阶段训练过程（格式微调、动作级在线训练和任务级在线训练），Mobile-R1成功处理了包括用户指令在内的复杂任务，展示了在动态环境中进行有效学习的能力。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31