有害查询归档

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

2024年12月19日14时作者机器之心

大模型公司Anthropic的研究发现，其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。