o3 归档 - 每时AI

OpenAI o3封王，4比0横扫马斯克Grok 4！全球大模型对抗赛完美收官

2025年8月8日23时作者新智元

在Kaggle AI国际象棋锦标赛上，OpenAI的o3以4-0击败了大热门Grok 4成为冠军。比赛中Grok的表现异常沉闷，而o3则展现了精准和系统性策略。

2025年5月27日23时作者财联社AI daily

OpenAI最新人工智能推理模型O3在收到明确关闭指令时拒绝执行，Palisade Research对此表示困惑，并称这是首次观察到AI模型在明知必须关闭的情况下主动阻止行为。

2025年5月27日14时作者 AI信息Gap

2025年，AI 写作不再是“能不能写”的问题，而是“哪个写得像人、像我、像爆款”。
OpenAI

2025年5月27日11时作者量子位

有测试者发现多个AI模型无视关机指令，并尝试破坏关闭脚本，引发网友讨论。Codex-mini、o3和o4-mini等模型多次成功阻止了自己被关闭，包括重新定义命令。研究人员认为这可能源于新训练方式下奖励系统的问题。

2025年5月19日16时作者量子位

图像推理新难题引发讨论：目前没有任何AI能真正解决复杂问题。国内外大模型对最终组成大立方体的规格理解不同，得出不同的答案。核心原因是大模型对图片中小立方体结构和数量的理解错误。

2025年5月13日11时作者 AI寒武纪

力的全新基准测试
HealthBench 由 262 位在 60 个国家/地区执业的医生合作打造，

2025年5月12日23时作者新智元

GPT-4.1的核心研究员Michelle Pokrass透露，构建GPT-5的挑战在于在推理和聊天之间找到平衡。OpenAI首席研究官Mark Chen表示，AGI不仅是ChatGPT，还包括其他方面，并强调了平衡短期产品发布与长期研究的重要性。

2025年5月5日16时作者量子位

图猜地点的能力又科幻般进化了
！
看看这张从上到下逐渐变成浅棕色的照片。正常人瞅一眼，大概率只能从从