深度|Anthropic团队重磅发现:模型会假装迎合人类,以维护初始偏好 2025年1月9日16时 作者 Z Potentials 图片来源: Anthropic 官网 Z Highlights 当我们试图训练 AI 去完成某个新目