O3-mini 归档 - 第2页共5页

陶哲轩亲测点赞，o3-mini秒证图论难题！专家级证明完整呈现

2025年3月11日16时作者新智元

陶哲轩分享了使用AI（o3-mini）辅助证明数学难题的故事，包括成功解决了Ruzsa-Szemeredi的三角形移除引理，但当面对研究级别的问题时表现不佳。他指出，大模型在快速提供标准论证细节方面是优秀的用例，但仍需用户详细引导和验证答案的准确性。

2025年3月11日12时作者量子位

陶哲轩测试o3-mini证明了极值图论中的三角形移除引理，并对其进一步推论进行了详细解答，展示了模型的强大推理能力。

2025年2月28日16时作者机器之心

近日，谷歌发布了一项高难度基准BIG-Bench Extra Hard（BBEH），旨在评估AI模型的高阶推理能力。该基准包含了23个任务，并将每个任务替换为更难的任务，覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格，而其它模型得分不超过10分。

2025年2月28日14时作者 AI先锋官

OpenAI发布号称最好和最大的聊天模型GPT 4.5，虽然在基准测试中表现一般，但其强大的无监督学习能力、更低的幻觉率以及新引入的安全技术备受关注。

2025年2月13日12时作者钛媒体AGI

PT-4.5和GPT-5的路线图消息。
奥尔特曼表示，OpenAI将很快（几周/月内）发布代号为“O

2025年2月8日12时作者新智元

在AIME 2025 I数学竞赛中，o3-mini和DeepSeek R1分别取得了78%和65%的成绩。然而，一名教授发现某些小模型也能取得高分，质疑是否存在数据集污染。

2025年2月7日14时作者 AI信息Gap

今早OpenAI开放了o3-mini和o3-mini-high两个模型的思维链。作者对比测试了这三个模型对同一问题的不同回答过程，发现DeepSeek-R1的回答更真实可信。

2025年2月7日12时作者 APPSO

OpenAI 公开了其最新模型 O3-mini 系列的新功能，用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。