Pixel Reasoner:滑铁卢等高校联合打造的视觉语言模型,用好奇心驱动的强化学习解锁视觉推理新高度!

Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型,通过直接操作视觉输入提升对视觉细节的捕捉能力。它结合指令调优和好奇心驱动的强化学习,在多个视觉推理基准测试中表现出色。

喝点VC|a16z:进入大模型通胀时代—推理成本3年内下降1000倍

文章概述了大语言模型(LLMs)推理成本随时间迅速下降的趋势,将这一现象称为LLM通货膨胀。据分析显示,性能相近的LLMs价格每年下降10倍。尽管当前趋势可能仍会变化,但作者认为人工智能革命将继续带来重大进展,并且可能会开启新的用例。