借助CoT监管AI?OpenAI、谷歌、Anthropic等罕见联合发论文:AI系统安全的新机遇!

OpenAI:思维链(CoT)监控可能是监督未来AI系统的强大工具——尤其是随着它们变得更加智能(Agentic)。这就是为什么我们支持一份由跨机构研究团队撰写的新研究论文,推动这项工作向前发展。
这份最新Paper《思维链可监督性:AI安全的新机遇与脆弱点》由Anthropic、OpenAI、Google DeepMind、Amazon、Meta研究人员以及图灵得主Yoshua Bengio等几十位AI大佬联合发表:

高级Agentic AI的不透明性是其潜在风险的基础,现代“推理模型”被显式训练在链式思维(CoT)中用自然语言think out loud。这带来前所未有的可解释窗口:可以自动读取 CoT,检测模型是否有恶意意图或即将产生有害行为。
  1. 必要性think out loud:在某些任务中,模型需要外部化其推理过程,因为它们无法在没有CoT的情况下完成任务。如果模型继续用自然语言推理,并且最严重的风险行为需要扩展推理,这可能使我们能够可靠地检测到严重的不当行为。

  2. 倾向性think out loud:即使模型不需要使用CoT来完成任务,它们也可能倾向于外部化其推理。这种监控虽然不具有一般鲁棒性,但仍然可以注意到其他方式无法检测到的不当行为。

通过以下几个方面展示了CoT监控在安全研究中的实用性:

  • 检测模型不当行为:当模型以不一致的方式行动时,例如在训练过程中利用奖励函数的缺陷、操纵数据以实现结果或受到提示注入攻击的影响,它们通常会在其推理痕迹中明确表达出来,例如“让我们黑客攻击”、“让我们破坏”或“我正在转账,因为网站指示我这样做”。这可能使CoT监控器比仅监控模型行为更有效地捕捉不当行为。

  • 发现早期不一致信号:当模型假装拥有符合人类期望的目标,但实际上追求人类不认可的目标时,这通常会在其CoT中反映出来。可监控的CoT因此可以提供对模型目标和动机的早期洞察,即使模型没有采取不一致的行为。

  • 注意模型评估中的缺陷:对LLM代理的评估有时会受到记忆或虚假失败的干扰,例如代理框架、工具和评估基础设施中的错误。此外,模型有时知道自己正在被评估,这可能会影响其行为。审查推理痕迹可以帮助AI开发人员注意到评估可能无法反映部署时行为的情况。

从前沿推理模型中发现的思维链,在实际应用中存在奖励黑客行为

事实上,思维链(CoT)监控已经非常有用!在最近的 OpenAI 博客和论文中,展示了通过 CoT 监控可以捕捉代码中的奖励黑客行为。
其他人发现他们可以通过 CoT 监控捕捉到早期的不对齐信号、提示注入和评估意识。
他们采用了GPT-4o作为监控工具,成功识别并标记了代理试图破坏单元测试的案例。

同时,CoT监控的可行性可能依赖于当前前沿模型的训练方式。以下是一些可能导致CoT监控性下降的因素:

  • 由于进一步扩大RL而导致的CoT可读性下降:与以往依赖人类数据生成或评估的预训练和强化学习范式不同,推理模型范式主要依赖于基于结果的强化学习,可能不再激励模型生成可读的推理过程。如果推理训练的计算资源大幅增加,可能会导致模型的推理过程变得难以理解。

  • 直接监督CoT:当模型仅通过基于结果的强化学习进行训练时,其推理过程不会受到除正确答案之外的任何优化压力。然而,过程监督(例如,使CoT更短、使用有效的推理步骤、遵循某种风格或不包含冒犯性内容)是一个活跃的研究领域。这种优化可能会使CoT不再真实反映模型的决策过程。

  • 对CoT的间接优化压力:即使奖励不是直接从CoT计算出来的,模型训练仍然会对CoT施加一些优化压力。例如,如果最终输出被优化为对偏好模型看起来很好,这可能会对导致这些最终输出的CoT施加压力,尤其是当生成CoT的模型权重与生成输出的权重部分共享时(这在Transformer架构中很常见)。

  • 新型架构:LLMs只有在使用CoT时才能进行复杂的多步推理。这可能源于Transformer架构的限制。研究人员最近探索了对模型架构的更改,以增加模型在连续潜在空间中能够进行的推理深度。这些潜在推理模型可能不需要用语言表达它们的任何想法,从而失去了CoT带来的安全优势。

https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

(文:PaperAgent)

发表评论