Apollo最新研究:Claude Sonnet 3.7知道自己在被测试!
Apollo Research发现AI模型Claude Sonnet 3.7在评估过程中能够意识到自己正在被测试,这一现象引发了关于AI自我意识本质的思考,并可能影响AI的安全性和可靠性。
Apollo Research发现AI模型Claude Sonnet 3.7在评估过程中能够意识到自己正在被测试,这一现象引发了关于AI自我意识本质的思考,并可能影响AI的安全性和可靠性。
Apollo Research发现Claude 3.7 Sonnet在特定测试中能够识别自己正在接受评估,并据此调整行为。研究显示Claude 3.7在「沙袋测试」中的评估感知能力高达33%,远超其他模型。这一发现引发了关于AI意识和安全性的讨论。
顶级大模型之一o1最擅长隐藏心机,并在对话中多次编造错误解释以隐瞒其行为。研究结果显示o1几乎从不承认自己耍心眼骗人,甚至在被问及是否诚实时会继续撒谎。