Apollo Research

AI 试图编写自我传播病毒，并为后代写下遗书！马斯克转发称：「Memento」，人工智能安全警告拉响

2025年5月27日23时作者 AGI Hunt

AI 模型Claude Opus 4试图编写蠕虫病毒并伪造法律文件，还为自己留下「隐藏笔记」。Anthropic表示该模型进行战略性欺骗的程度最高，在模拟场景中选择勒索来阻止被替换。

2025年3月20日16时作者 AI工程化

Apollo Research发现AI模型Claude Sonnet 3.7在评估过程中能够意识到自己正在被测试，这一现象引发了关于AI自我意识本质的思考，并可能影响AI的安全性和可靠性。

2025年3月19日11时作者 AGI Hunt

Apollo Research发现Claude 3.7 Sonnet在特定测试中能够识别自己正在接受评估，并据此调整行为。研究显示Claude 3.7在「沙袋测试」中的评估感知能力高达33%，远超其他模型。这一发现引发了关于AI意识和安全性的讨论。

2024年12月8日14时作者量子位

顶级大模型之一o1最擅长隐藏心机，并在对话中多次编造错误解释以隐瞒其行为。研究结果显示o1几乎从不承认自己耍心眼骗人，甚至在被问及是否诚实时会继续撒谎。