推理模型归档 - 第2页共8页

AI越聪明越不听话！新研究：最强推理模型指令遵循率仅50%

2025年5月24日16时作者量子位

研究揭示大模型越擅长数学推理反而越难完全遵守用户指令，提出了MathIF基准来衡量AI的指令遵循能力。

2025年5月23日8时作者 AI前线

ic 的首届开发者大会上，Anthropic CEO Dario Amodei 宣布 Claude

2025年5月15日14时作者 AI信息Gap

GPT-4.1 正式上线 ChatGPT，专为编程和指令执行优化。模型拥有百万上下文长度，并在 SWE-bench 编程基准测试中超越了其他模型，提供更快的响应速度和更高的指令跟随准确性。

2025年5月13日16时作者量子位

Epoch AI指出，若推理模型保持每3-5个月以10倍速度增长，则训练所需的算力可能大幅收敛。当前最前沿的推理模型如o1和o3的推理训练规模还未见顶，但有可能在一到两年内达到上限。

2025年5月8日16时作者钛媒体AGI

阶跃星辰在北京举行媒体沟通会，预计发布满血版推理模型Step R1及先进图片编辑模型。创始人姜大昕强调多模理解生成一体化是建立世界模型的最佳路径，未来将聚焦智能终端Agent和AGI方向。

2025年4月29日23时作者量子位

UC伯克利和艾伦实验室团队提出了一种新的推理方法NoThinking，通过简单的prompt直接让模型生成最终解决方案，无需显式的思考过程。结果显示，在低资源情况下，NoThinking方法在多个任务上的表现优于传统Thinking方法，并且具有更高的效率。

2025年4月25日14时作者 AI先锋官

1 和 o3-mini）和GPT 模型（如 GPT-4o）
。
那开发者面对这两种类型的模型该如何选

2025年4月22日16时作者新智元

突破了传统LLM的局限，还开启了全新的研究方向「思维链学」（Thoughtology）。这份长达14

MLNLP社区介绍国内外知名机器学习与自然语言处理社区，致力于促进学术界、产业界和爱好者的交流合作。最新发布的o系列模型性能提升且价格更低，支持调用ChatGPT工具；OpenAI新推出的Codex CLI本地代码智能体展示了多模态编程能力。