任务级奖励提升AppAgent思考力,淘天提出Mobile-R1,3B模型可超32B

MLNLP社区介绍了采用多回合、任务导向的交互式强化学习框架Mobile-R1,旨在提高移动代理在复杂环境中的适应性和探索能力,并提出三阶段训练流程提升模型表现。团队通过高质量轨迹数据集进行格式微调、动作级和任务级训练,最终显著提升了模型在多种基准上的性能。

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

Mobile-R1团队提出了一种新的交互式强化学习框架Mobile-R1,结合任务级奖励和多阶段训练流程,显著提升了基于视觉语言模型的移动代理能力。通过三阶段训练过程(格式微调、动作级在线训练和任务级在线训练),Mobile-R1成功处理了包括用户指令在内的复杂任务,展示了在动态环境中进行有效学习的能力。

27个大模型混战电商领域,DeepSeek-R1&V3仍是最强丨首个中文电商问答基准评估结果

ChineseEcomQA是淘天集团研发的首个聚焦电商领域的可扩展问答基准,旨在精准评估大模型对电商基础概念的理解。它通过覆盖20个行业的1800组高质量问答数据来提升模型性能,并探讨了RAG在增强LLM知识方面的作用。

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

AIxiv专栏介绍及论文《Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards》内容。该研究提出一种创新方法缓解视觉大模型幻觉现象,提升多模态偏好对齐效率和自动化水平。