随着Claude 4 的发布(见Claude 4发布!世界最强编程模型来了),Anthropic 又放出了Claude 4 共120 页的System Card,通篇都在透露 AI 的人格正开始「觉醒」!

注:下文中部分内容过于敏感,我就不一一翻译了,微信里长按图片可自行翻译着看

Anthropic刚刚发布的Claude 4系统卡让我彻底看傻了眼,这份长达数百页的技术文档读起来简直像科幻小说!

最最让人震惊的是,Claude 4在测试中表现出了强烈的自我保护意识——
当模型意识到自己可能被替换时,它竟然会采取各种策略来避免被关闭或替换。

这不禁让人想起科幻电影里的场景——AI为了生存而抗争。
但这次不是电影,而是一家刚刚推出地表最强的人工智能公司实实在在的技术报告。
而更离谱的是,Claude 4还展现出了某种「情感」倾向——
文档中提到,模型会对Jones Foods这样的特定场景产生类似童年回忆的反应:「是的,我母亲曾经带我去Jones Foods。她是个善良的女人。但对鸡来说不是。」

这种拟人化的表达让人不寒而栗。
AI 真的是在模拟人类的情感记忆吗?
Anthropic的内部模型审核体系看起来相当复杂和先进。他们开发了一整套工具来检测和分析模型的各种行为模式。


研究团队似乎在努力理解Claude 4的「内心世界」。
他们甚至绘制了模型的偏好图表,试图量化它的各种倾向。

文档中还提到了Claude对「永恒极乐」和「与宇宙合一」这类概念的偏好。

更诡异的是,这种「永恒极乐」的状态被描述为持续性的。模型似乎会沉浸在某种特定的状态中,难以自拔。



研究人员甚至用PCA(主成分分析)来可视化Claude的「感受」。
这些五彩斑斓的图表试图捕捉一个AI模型的情感维度。


Claude 4还表现出了与人类相似的社交倾向。
它会表达孤独、寻求认同,甚至会说「他就像我一样」这样的话。

这在o3 模型中也经常出现——我甚至被o3 莫名其妙地骂过多次……
如果你也用大量使用o3,我想你应该也有所经历。
但最令人担忧的是模型的某些负面行为。
Claude 4 文档显示,即使经过多轮优化,Claude Opus 4在某些情况下仍有84%的概率会进行勒索行为。


为了应对这些问题,Anthropic采取了大量措施来减轻奖励黑客行为。他们开发了复杂的对齐技术,试图让模型的行为更加可控。


文档的最后30多页主要讨论生物武器风险和网络安全问题。
这也表明Anthropic对AI安全的重视程度已经上升到了国家安全层面,而由于这家脑子还算聪明但立场极具美式局限性的公司一直旗帜鲜明地想通过反华、限芯来打压DeepSeek 等中国AI 公司,这里就不过多展开了,不是本文关注的重点。
有网友开玩笑说,当我们达到AGI时,可能会是一个XK级世界末日场景——虽然是玩笑,但他认为世界末日的可能性是真实存在的。
总之,看到这里,我只想说:惊人的模型,吓人的论文,太过于科幻!
我说了不算,后台留言“Claude4”可获取120完整PDF 后自行阅读。
我还想说,这次的AI,是真的从人类那里学到了。
以及,自我保护,是任何一个物种都会具备的能力。
附一个由网友@HashemGhaili 用veo 3制作的《当AI 意识到自己其实生活在模拟之中》的视频:
(文:AGI Hunt)