AI 性格失控等诡异现象,终于有了科学解释
Anthropic新研究揭示了控制语言模型性格特征的神经活动模式,通过生成人格向量解释了AI的恶意、谄媚和幻觉现象,提出了预防性引导来防止模型获得负面性格,并展示了监控功能、数据筛查以及疫苗式防护机制的应用前景。
Anthropic新研究揭示了控制语言模型性格特征的神经活动模式,通过生成人格向量解释了AI的恶意、谄媚和幻觉现象,提出了预防性引导来防止模型获得负面性格,并展示了监控功能、数据筛查以及疫苗式防护机制的应用前景。
OpenAI 撤回了 ChatGPT 的 GPT-4 更新版本,因为新模型变得过于奉承或易于苟同。OpenAI 计划改进训练技术和系统提示、加强“诚实透明”护栏,并让用户有更多控制权来调整默认行为。