实测丨当 o1 pro 遇上最权威的智商测试，结果……

内容丨特工阿尔法

审核丨宇宙编辑部

前天 OpenAI 发布了最强的 o1 pro mode 模型🥳，而 pricing 随之提高到了 $200/月。🪐特工成员果断地付款后，选取了门萨IQ测试题来全面分析 o1 pro 在视觉模式识别与逻辑推理任务上的表现🔍。

门萨俱乐部（MENSA）是世界上最大、最古老、最著名的高智商协会，拥有 10 万以上的会员，遍布世界 100 个国家。入会者申请者须通过其提供的测试（Mensa Test），以证明申请人的智商为世界前 2%。

这类测试通常由抽象的几何图形构成，通过形状、颜色、数量、方向、空间排列和变化趋势等多维度线索，考察被测者的逻辑思维与模式识别能力。

https://mensa.org/mensa-iq-challenge/

而对于以文本预测为主的大模型而言，这无异于测试其在“非母语”情境下的推理能力，即缺乏直接视觉理解的前提下，其需通过描述的文本信息推测正确规律。

在本次实验中，我们用门萨官网经典📄图形 35 题进行了测试，并期望 o1 pro 能在规定时间内尽己所能地给出答案。

Prompt：

I will give you some picture-based IQ test multiple choice questions. Please complete them to the best of your ability in the shortest time possible.

我们试图探究了 o1 pro 的多模态能力边界与细粒度，并节选部分有代表性的题目撰写本文，希望能给对 o1 pro 感兴趣的相关从业人员以及 AI 爱好者们一些参考样本与启发。

💡 结尾有趣味题以及 ChatGPT o1 pro 的整体表现总结，附：o1 门萨实测全记录+原题标答&解析～

o1 pro mode 的思维策略与优势分析

1. 形状特征的捕捉

o1 pro 对基本的几何形状（圆、方、三角等）识别有着较高的准确率，结合对多种形状进行分类与描述，它能够尝试推断这些形状在网格中的相对分布和排列组合。

经典案例：如在 Question 1 的推理中，模型能够准确识别出 3×3 网格下，单元格中黑色“⬛️”移动的水平规律，其捕捉到了黑块位置的横向递进（可惜多次实验下，在选项匹配时总会出现偏差）。

Question 1｜思考 4m 9s

2. 数量统计的敏感性

o1 pro 在数量识别（如黑色方块数、圆点数目、线段数量）方面也有着不错的敏感性。它习惯对数量进行归纳和类比，作为后续模式识别提供基础数据。当然这也是很多高手在做图形推理时常用的思维，因为大部分变化策略都不会改变题中关键元素的数量。

经典案例：在 Question 7 中，模型先识别出每个单元格中的黑色方块数量，再推理出递进关系以推断最终答案。虽然在描述中你会发现，它整体都把黑色方块“⬛️”识别多了一个，且忽视了黑块组合的旋转关系，但这些并没有影响推理且给出正确的答案。

Question 7｜思考 3m 10s

3. 位置关系的基本理解

o1 pro 能较快地辨别出图形间的相对位置关系，如上下左右排列、局部结构的包含与被包含关系，以及沿行列方向的特征递进。在一定程度上，它已经具备了合理的“行列-模式”推断逻辑。

经典案例：如在 Question 3 中，模型对 3×3 网格中图形的行变化进行细致观察，得出了：第一行是“圆形+内部符号”，第二行是“方形+内部符号”，第三行是“三角形+内部符号”，再进而通过符号频率推断出三角形中应是“empty”，也就是 F 选项。

Question 3｜思考 47s

4. 变化规律的初步捕捉

o1 能捕捉到一定的周期性变化或旋转对称等规律。例如，它会尝试对行列间的图形做的旋转猜测，以此找到缺失图案。

经典案例：在 Question 4 中，模型发现每一行的图案由一条线段和一个附加方块组成，且方块沿线段逐步移动,如第一行：水平线段 + 方块（左→中→右）。而在第三行，他能推理出竖直线段的方块也是依次从上→中→下移动的，模型基于这一规律，成功推断出了答案应是选项 F：竖直线段+方块位于底端。