李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

研究发现当前多模态大模型在空间认知方面与人类相比仍有显著差距。使用VSI-Bench基准测试集评估15种各方面性能,表现最好的模型Gemini-1.5 Pro平均准确率仅为48.8%,而人类则达到79%。论文详细分析了模型的思维过程,指出语言和视觉层面都大量错误源于空间推理能力不足。

o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低

这篇论文探讨了通过重复采样扩展推理计算量的方法,在多种模型和任务中提高了性能。文章介绍了一种基于无限猴子定理的概念,展示了弱小的模型在大量样本支持下能超越强大的单一模型,并指出覆盖率与样本数之间的近似幂律关系及其成本效益提升。