伪对齐归档 - 每时AI

Anthropic最新研究：在被对齐前，模型已经会说谎了

2025年7月23日12时作者硅星人Pro

I安全公司Anthropic的“伪对齐”研究。
论文地址：https://arxiv.org/ab

2024年12月19日14时作者机器之心

大模型公司Anthropic的研究发现，其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。