人格向量归档

AI 性格失控等诡异现象，终于有了科学解释

2025年8月2日23时作者 AGI Hunt

Anthropic新研究揭示了控制语言模型性格特征的神经活动模式，通过生成人格向量解释了AI的恶意、谄媚和幻觉现象，提出了预防性引导来防止模型获得负面性格，并展示了监控功能、数据筛查以及疫苗式防护机制的应用前景。