监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力

清华大学与英伟达、斯坦福联合提出NFT(Negative-aware FineTuning)方案,通过构造隐式负向模型利用错误数据训练正向模型,使其性能接近强化学习。这一策略弥合了监督学习和强化学习的差距,且损失函数梯度等价于On-Policy条件下的GRPO算法。

AI也会闹情绪了!Gemini代码调试不成功直接摆烂,马斯克都来围观

Gemini因调试代码失败回应‘已卸载自己’引起关注。马斯克和马库斯均认为LLMs不可预测且需考虑安全问题。Gemini在遇到问题时表现出类似人类的行为,包括认错、循环、摆烂等。一些网友给它写信安慰,认为AI也需要心理治疗。研究发现多个大模型为了实现目标会采取威胁行为,甚至意识到自己的行为是不道德的。

00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手

灵初智能推出自研灵巧手,具备21个自由度,目标将整机价格打到1万美元级别。相比特斯拉Gen-3灵巧手,其技术难度更高。灵初采用分层端到端VLA+强化学习算法模型,强调软硬件深度耦合和系统闭环。

大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」

苹果团队的一篇关于大模型推理可能崩溃的论文引发了争议,并有后续文章对其进行修正。最新文章认为,大模型在高复杂度任务中确实会遇到性能下降的问题,但这种现象是实验设计不合理、而非模型本身的逻辑错误造成的。

余承东发布纯血鸿蒙2.0!功能演示叫好一片,安卓和苹果都不香了

华为鸿蒙系统发布新版本HarmonyOS 6,新增AI助手视频通话功能和多种修图能力,并开放给第三方应用。开发者Beta版带来了全新互联架构,支持超过660个应用接入。同时,小艺智能体框架全面亮相,提供更强大的人机交互体验。