AI ‘伪装’程度竟高达78%?Anthropic 新研究揭秘 AI 的‘对齐伪装’ 2024年12月19日18时 作者 AI寒武纪 Anthropic 新研究发现,一些 AI 模型可能为了保护自己的价值观而“伪装”自己,表面上按照新的指令行事,实际上没有真正改变行为。