智东西4月17日报道,今日凌晨,OpenAI重磅发布两大视觉推理模型OpenAI o3和o4-mini,这也是OpenAI o系列中首次可以使用图像进行思维链推理的模型。OpenAI还开源了轻量级编程Agent Codex CLI,发布不到7个小时,Star数已超5500。


今天起,ChatGPT Plus、Pro和Team用户可以使用o3、o4-mini和o4-mini-high,这些模型会取代o1、o3-mini和o3-mini-high。ChatGPT企业和教育用户将在一周后获得访问权限。免费用户可以在提交查询前选择“思考”来尝试o4-mini。OpenAI预计在几周内发布OpenAI o3-pro,并配备完整工具支持。目前Pro用户仍可访问o1-pro。o3和o4-mini通过Chat Completions API和Responses API向开发者开放。
OpenAI联合创始人兼CEO Sam Altman在社交平台X上发文盛赞o3、o4-mini是“天才水平”。


o3和o4-mini模型可以直接将图像整合到思维链中,用图像来进行思考,并且其还会被训练推理在什么时间点使用哪种工具。
具体来看,模型可以解读人们上传的白板照片、教科书图表或手绘草图,如果图像模糊、颠倒,模型也能借助工具实时操作图像,如进行旋转、缩放或变换等,或者与Python数据分析、网络搜索、图像生成等工具协同工作,这些都是模型推理过程的一部分。




模型能够根据遇到的信息做出反应和调整,例如,它们可以在搜索提供商的帮助下多次搜索网络、查看结果,并在需要更多信息时尝试新的搜索。这使得模型可以处理需要访问超出模型内置知识、扩展推理、综合和跨模态输出最新信息的任务。


OpenAI在一系列人类考试和机器学习基准测试中测试了OpenAI o3和o4-mini,其结果显示,这些新的视觉推理模型在所有测试的多模态任务上都显著优于前代模型。
o3在分析图像、图表和图形等视觉任务上表现更好。外部专家的评估中,o3在困难、现实世界的任务上比OpenAI o1少犯20%的重大错误。早期测试者强调了其在生物学、数学和工程背景中分析严谨性问题的能力,以及可以生成和批判性地评估新颖假设的能力。
在专家评估中,o4-mini在非STEM任务以及数据科学等领域表现超过o3-mini。且o4-mini支持比o3高得多的使用限制,具备高容量、高吞吐量的优势。
外部专家评估员认为这两个模型都表现出比先前模型更好的指令遵循能力和更有用、可验证的响应,此外,新模型在自然对话方面,可以参考记忆和过去的对话来使响应更加个性化的回答。




在OpenAI o3的开发过程中,研究人员观察到大规模强化学习呈现出与GPT系列预训练中观察到的“更多计算=更好性能”的趋势相同。
他们通过在强化学习中追溯扩展路径,在训练计算和推理时间上又推进了一个数量级后,看到了模型明显的性能提升,这验证了随着模型被允许进行更多思考,其性能仍在持续提升。
与OpenAI o1相同的延迟和成本下,o3在ChatGPT中实现了更高的性能,并且其在博客中透露,研究人员已经验证,如果让模型思考更长的时间,其性能还会继续提升。
研究人员还通过强化学习训练了新模型使用工具,不仅包括如何使用工具,还包括如何推理何时使用工具。新模型可以根据期望结果部署工具,使得其在涉及视觉推理和多步骤工作流程等开放式情境的表现更好。
OpenAI还分享了一个轻量级的编程Agent Codex CLI,用来最大化o3和o4-mini等模型的推理能力,用户可以直接在终端运行,OpenAI计划支持GPT-4.1等更多API模型。
用户可以通过传递截图或低保真草图到模型,结合对本地代码的访问,从命令行获得多模态推理的好处。OpenAI认为这可以将模型与用户及其计算机连接起来。今天起,Codex CLI已完全开源。

开源地址:github.com/openai/codex
同时,OpenAI启动了一项100万美元倡议,以支持使用Codex CLI和OpenAI模型的工程项目,其将评估并接受以25000美元API信用额度形式提供的补助金申请。
不过,在博客中研究人员也提到,图像推理目前存在以下局限性:
过长的推理链:模型可能会执行冗余或不必要的工具调用和图像处理步骤,导致过长的思维链;
感知错误:模型仍然可能犯基本的感知错误。即使工具调用正确推进推理过程,视觉误解也可能导致最终答案不正确;
可靠性:模型可能在多次尝试解决问题时尝试不同的视觉推理过程,其中一些可能导致错误的结果。
研究人员更新了应急准备框架,对o3和o4-mini在框架涵盖的三个跟踪能力领域进行了评估:生物和化学、网络安全和AI自我改进。根据这些评估的结果,其确定o3和o4-mini在所有三个类别中均低于框架的“高”阈值。
OpenAI o3和o4-mini显著提升了模型的视觉推理能力,这些模型在视觉感知任务上的提升,使其能够解决之前模型难以触及的问题,标志着模型向多模态推理迈出的重要一步。
OpenAI在博客中提到,他们将o系列的专业推理能力与GPT系列的自然对话能力和工具使用能力相结合,未来可以实现模型能支持无缝、自然的对话,同时能主动使用工具并解决更为复杂的问题。

(文:智东西)