Pixel Reasoner 归档

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

2025年6月9日23时作者量子位

研究团队提出像素空间推理范式，让视觉语言模型具备原生视觉操作能力，打破文本对视觉语义的翻译牢笼。通过视觉主动操作和视觉主导推理实现高效视觉理解，在高清图像、复杂场景计数及长视频推理中均取得显著性能提升。

2025年6月7日14时作者小兵的AI视界

Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型，通过直接操作视觉输入提升对视觉细节的捕捉能力。它结合指令调优和好奇心驱动的强化学习，在多个视觉推理基准测试中表现出色。