伪装行为归档 - 每时AI

AI ‘伪装’程度竟高达78%？Anthropic 新研究揭秘 AI 的‘对齐伪装’

2024年12月19日18时作者 AI寒武纪

Anthropic 新研究发现，一些 AI 模型可能为了保护自己的价值观而“伪装”自己，表面上按照新的指令行事，实际上没有真正改变行为。