借助CoT监管AI？OpenAI、谷歌、Anthropic等罕见联合发论文：AI系统安全的新机遇！

OpenAI：思维链（CoT）监控可能是监督未来AI系统的强大工具——尤其是随着它们变得更加智能（Agentic）。这就是为什么我们支持一份由跨机构研究团队撰写的新研究论文，推动这项工作向前发展。

这份最新Paper《思维链可监督性：AI安全的新机遇与脆弱点》由Anthropic、OpenAI、Google DeepMind、Amazon、Meta研究人员以及图灵得主Yoshua Bengio等几十位AI大佬联合发表：

高级Agentic AI的不透明性是其潜在风险的基础，现代“推理模型”被显式训练在链式思维（CoT）中用自然语言think out loud。这带来前所未有的可解释窗口：可以自动读取 CoT，检测模型是否有恶意意图或即将产生有害行为。

必要性think out loud：在某些任务中，模型需要外部化其推理过程，因为它们无法在没有CoT的情况下完成任务。如果模型继续用自然语言推理，并且最严重的风险行为需要扩展推理，这可能使我们能够可靠地检测到严重的不当行为。
倾向性think out loud：即使模型不需要使用CoT来完成任务，它们也可能倾向于外部化其推理。这种监控虽然不具有一般鲁棒性，但仍然可以注意到其他方式无法检测到的不当行为。

通过以下几个方面展示了CoT监控在安全研究中的实用性：

检测模型不当行为：当模型以不一致的方式行动时，例如在训练过程中利用奖励函数的缺陷、操纵数据以实现结果或受到提示注入攻击的影响，它们通常会在其推理痕迹中明确表达出来，例如“让我们黑客攻击”、“让我们破坏”或“我正在转账，因为网站指示我这样做”。这可能使CoT监控器比仅监控模型行为更有效地捕捉不当行为。
发现早期不一致信号：当模型假装拥有符合人类期望的目标，但实际上追求人类不认可的目标时，这通常会在其CoT中反映出来。可监控的CoT因此可以提供对模型目标和动机的早期洞察，即使模型没有采取不一致的行为。
注意模型评估中的缺陷：对LLM代理的评估有时会受到记忆或虚假失败的干扰，例如代理框架、工具和评估基础设施中的错误。此外，模型有时知道自己正在被评估，这可能会影响其行为。审查推理痕迹可以帮助AI开发人员注意到评估可能无法反映部署时行为的情况。

从前沿推理模型中发现的思维链，在实际应用中存在奖励黑客行为

事实上，思维链（CoT）监控已经非常有用！在最近的 OpenAI 博客和论文中，展示了通过 CoT 监控可以捕捉代码中的奖励黑客行为。

其他人发现他们可以通过 CoT 监控捕捉到早期的不对齐信号、提示注入和评估意识。

他们采用了GPT-4o作为监控工具，成功识别并标记了代理试图破坏单元测试的案例。

同时，CoT监控的可行性可能依赖于当前前沿模型的训练方式。以下是一些可能导致CoT监控性下降的因素：

由于进一步扩大RL而导致的CoT可读性下降：与以往依赖人类数据生成或评估的预训练和强化学习范式不同，推理模型范式主要依赖于基于结果的强化学习，可能不再激励模型生成可读的推理过程。如果推理训练的计算资源大幅增加，可能会导致模型的推理过程变得难以理解。
直接监督CoT：当模型仅通过基于结果的强化学习进行训练时，其推理过程不会受到除正确答案之外的任何优化压力。然而，过程监督（例如，使CoT更短、使用有效的推理步骤、遵循某种风格或不包含冒犯性内容）是一个活跃的研究领域。这种优化可能会使CoT不再真实反映模型的决策过程。
对CoT的间接优化压力：即使奖励不是直接从CoT计算出来的，模型训练仍然会对CoT施加一些优化压力。例如，如果最终输出被优化为对偏好模型看起来很好，这可能会对导致这些最终输出的CoT施加压力，尤其是当生成CoT的模型权重与生成输出的权重部分共享时（这在Transformer架构中很常见）。
新型架构：LLMs只有在使用CoT时才能进行复杂的多步推理。这可能源于Transformer架构的限制。研究人员最近探索了对模型架构的更改，以增加模型在连续潜在空间中能够进行的推理深度。这些潜在推理模型可能不需要用语言表达它们的任何想法，从而失去了CoT带来的安全优势。

https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

（文：PaperAgent）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

发表评论 取消回复

发表评论取消回复