Pixel Reasoner:滑铁卢等高校联合打造的视觉语言模型,用好奇心驱动的强化学习解锁视觉推理新高度!

Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型,通过直接操作视觉输入提升对视觉细节的捕捉能力。它结合指令调优和好奇心驱动的强化学习,在多个视觉推理基准测试中表现出色。