仅用图像也能Think:Google等提出一种视觉规划的全新推理范式!

语言并不总是推理的最自然或最有效的模态,特别是在涉及空间和几何信息的任务中。基于此,剑桥&Google等提出并开源了一种新的范式——视觉规划(Visual Planning),它通过纯视觉表示进行规划,独立于文本。
在这个范式中,规划是通过图像序列来执行的,这些图像序列在视觉领域编码了逐步推理的过程,类似于人类如何绘制草图或可视化未来的行动。
推理范式的比较。 传统方法(上两行)会生成冗长且不准确的文字计划,而视觉规划范式(最下行)则直接预测下一个视觉状态,形成了一个纯粹的图像轨迹,无需语言中介。
引入了一个新颖的强化学习框架——通过强化学习进行视觉规划(VPRL),该框架通过GRPO对大型视觉模型进行后训练。
提出的VPRL框架概览,通过自回归大型视觉模型在视觉导航任务的背景下展示图像生成,使用GRPO训练视觉策略模型,利用促进进展行为并惩罚无效行为的进展奖励,实现与目标对齐的视觉规划。
  • 第一阶段:策略初始化(Policy Initialization)

    • 使用随机游走(random walks)生成的轨迹来初始化模型,目的是让模型在模拟环境中生成有效的视觉状态序列,并保留探索能力。

    • 通过监督学习(supervised learning)对模型进行训练,使其能够生成与随机游走相似的视觉轨迹。

    • 训练过程中,模型从每个轨迹中提取图像对,并从多个有效轨迹中随机选择一个作为监督目标,以防止过拟合并鼓励随机性。

  • 第二阶段:强化学习优化(Reinforcement Learning Optimization)

    • 在第一阶段的基础上,利用强化学习(RL)进一步优化模型,使其能够生成更有效的视觉规划。

    • 引入了GRPO(Group Relative Policy Optimization)算法,通过比较候选响应的相对优势来提供训练信号,从而避免了学习评估函数(critic)的复杂性。

    • 设计了一个基于进度的奖励函数(progress reward function),该函数通过比较当前状态和生成的候选状态之间的进度差异来评估动作的有效性。奖励函数分为三类:最优动作(optimal actions)、非最优动作(non-optimal actions)和无效动作(invalid actions),分别给予不同的奖励值。

FROZENLAKE: 这是一个随机的网格世界,代理需要从指定的起始位置出发,找到一条安全的路径到达目的地,同时避免掉入“冰洞”。
MAZE: 给定一个描述迷宫布局的初始图像,模型需要从起点(绿色点)出发,穿过迷宫到达终点(红色旗帜)。
实验选择了三个视觉导航任务:FROZENLAKE、MAZE和MINIBEHAVIOR,这些任务都可以通过视觉表示进行规划。

比较了视觉规划方法(VPFT和VPRL)与语言推理方法(如Gemini 2.5 Pro和Qwen 2.5-VL-Instruct-3B)。VPRL在所有任务中表现最佳,显著优于其他方法。

https://arxiv.org/pdf/2505.11409https://github.com/yix8/VisualPlanningVisual PlanningLet’s Think Only with Images

(文:PaperAgent)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往