陶哲轩亲测点赞,o3-mini秒证图论难题!专家级证明完整呈现
陶哲轩分享了使用AI(o3-mini)辅助证明数学难题的故事,包括成功解决了Ruzsa-Szemeredi的三角形移除引理,但当面对研究级别的问题时表现不佳。他指出,大模型在快速提供标准论证细节方面是优秀的用例,但仍需用户详细引导和验证答案的准确性。
陶哲轩分享了使用AI(o3-mini)辅助证明数学难题的故事,包括成功解决了Ruzsa-Szemeredi的三角形移除引理,但当面对研究级别的问题时表现不佳。他指出,大模型在快速提供标准论证细节方面是优秀的用例,但仍需用户详细引导和验证答案的准确性。
OpenAI与美国能源部9个国家实验室联合举办‘1000科学家AI集结’活动,测试前沿AI模型加速科学突破。此次活动汇集了全美顶尖科研力量,包括洛斯阿拉莫斯、橡树岭等重要实验室。
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
OpenAI发布号称最好和最大的聊天模型GPT 4.5,虽然在基准测试中表现一般,但其强大的无监督学习能力、更低的幻觉率以及新引入的安全技术备受关注。
在AIME 2025 I数学竞赛中,o3-mini和DeepSeek R1分别取得了78%和65%的成绩。然而,一名教授发现某些小模型也能取得高分,质疑是否存在数据集污染。
今早OpenAI开放了o3-mini和o3-mini-high两个模型的思维链。作者对比测试了这三个模型对同一问题的不同回答过程,发现DeepSeek-R1的回答更真实可信。
OpenAI 公开了其最新模型 O3-mini 系列的新功能,用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。