偏好的冲突归档 - 每时AI

深度｜Anthropic团队重磅发现：模型会假装迎合人类，以维护初始偏好

2025年1月9日16时作者 Z Potentials

图片来源：
Anthropic
官网
Z Highlights
当我们试图训练
AI
去完成某个新目