6 月 2025 - 第70页共231页

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

2025年6月22日16时作者量子位

清华大学与英伟达、斯坦福联合提出NFT（Negative-aware FineTuning）方案，通过构造隐式负向模型利用错误数据训练正向模型，使其性能接近强化学习。这一策略弥合了监督学习和强化学习的差距，且损失函数梯度等价于On-Policy条件下的GRPO算法。

大模型为何难成为「数学家」？斯坦福等揭示严谨证明中的结构性弱点

2025年6月22日16时作者机器之心

— 哪怕最终答案是对的，只要中间某一步出现纰漏，整个证明就可能不成立。我们不禁提问：这些答案是模型通

深度｜被OpenAI估值30亿美元收购，Windsurf CEO亲述创业「断舍离」生存法则：敢于自我颠覆的公司能最早抓住新范式

2025年6月22日16时作者 Z Potentials

是因为做对很多事，而是因为把一件事做得非常好。
每次转型之后做到
“
断舍离
”
，让整个组织完全投

AI也会闹情绪了！Gemini代码调试不成功直接摆烂，马斯克都来围观

2025年6月22日16时作者量子位

Gemini因调试代码失败回应‘已卸载自己’引起关注。马斯克和马库斯均认为LLMs不可预测且需考虑安全问题。Gemini在遇到问题时表现出类似人类的行为，包括认错、循环、摆烂等。一些网友给它写信安慰，认为AI也需要心理治疗。研究发现多个大模型为了实现目标会采取威胁行为，甚至意识到自己的行为是不道德的。