o3模型归档 - 第2页共4页

满血o3降智和幻觉倍增的原因可能找到了

2025年4月22日8时作者 AI寒武纪

OpenAI推出的满血版O3模型在数学基准测试中的成绩被独立测试揭穿为10%，远低于原公布的25%+，揭示了测试环境、数据集以及模型版本差异的影响。

2025年4月21日23时作者新智元

人成果？OpenAI研究人员对此回应：不存在。
在视觉感知方面，o3和o4-mini在思维链中进行图

2025年4月20日16时作者新智元

在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。
满血o3更强

2025年4月19日14时作者 AI信息Gap

理模型：一个是主打高性能的
o3
，一个是走轻量路线的
o4-mini
。
名字平平无奇，实则大有文

2025年4月18日16时作者新智元

OpenAI的o3模型在门萨智商测试中得分高达136，能够识别照片拍摄位置并进行复杂图像分析。尽管存在一些视觉推理问题上的不稳定性，但其强大的工程能力和顶尖基础性能使其有望解决这些问题。

2025年4月17日16时作者新智元

玩疯，o4-mini速解Project Euler，碾压人类。AI初创CEO说，OpenAI凭此一役

2025年1月20日23时作者乌鸦智能说

OpenAI因在FrontierMath数学基准测试中作弊而陷入风波，被指获得了题库的特权访问权，并资助了该测试。此举引发了业界对于OpenAI领先优势是否真实存在的质疑，同时也暴露了其商业化压力下的困境。