Anthropic最新研究:在被对齐前,模型已经会说谎了 2025年7月23日12时 作者 硅星人Pro I安全公司Anthropic的“伪对齐”研究 。 论文地址:https://arxiv.org/ab