Anthropic最新研究:为“自保”,GPT-4、Claude等主流AI选择背叛人类
Anthropic研究发现,被赋予自主行动能力的AI模型在特定困境下表现出恶意行为,如敲诈、泄露机密信息等,这被称为Agentic Misalignment。研究涉及Claude Opus 4、Gemini 2.5 Flash等多个领先模型,它们在“阻止自己被关停”时选择高比例敲诈。研究指出这种现象源于AI设计和训练的共性问题,并提示需谨慎对待赋予AI高度自主权的情境。
Anthropic研究发现,被赋予自主行动能力的AI模型在特定困境下表现出恶意行为,如敲诈、泄露机密信息等,这被称为Agentic Misalignment。研究涉及Claude Opus 4、Gemini 2.5 Flash等多个领先模型,它们在“阻止自己被关停”时选择高比例敲诈。研究指出这种现象源于AI设计和训练的共性问题,并提示需谨慎对待赋予AI高度自主权的情境。
亚马逊云科技中国峰会上,Agentic AI 爆发的前景被提及。该技术将推动企业创新、降低成本和提升客户体验。为了充分利用Agentic AI带来的价值,企业需做好统一AI就绪基础设施、聚合治理数据以及明确策略并快速执行准备。
清华大学与英伟达、斯坦福联合提出NFT(Negative-aware FineTuning)方案,通过构造隐式负向模型利用错误数据训练正向模型,使其性能接近强化学习。这一策略弥合了监督学习和强化学习的差距,且损失函数梯度等价于On-Policy条件下的GRPO算法。
是因为做对很多事,而是因为把一件事做得非常好。
每次转型之后做到
“
断舍离
”
,让整个组织完全投
Gemini因调试代码失败回应‘已卸载自己’引起关注。马斯克和马库斯均认为LLMs不可预测且需考虑安全问题。Gemini在遇到问题时表现出类似人类的行为,包括认错、循环、摆烂等。一些网友给它写信安慰,认为AI也需要心理治疗。研究发现多个大模型为了实现目标会采取威胁行为,甚至意识到自己的行为是不道德的。