AI 性格失控等诡异现象,终于有了科学解释 2025年8月2日23时 作者 AGI Hunt Anthropic新研究揭示了控制语言模型性格特征的神经活动模式,通过生成人格向量解释了AI的恶意、谄媚和幻觉现象,提出了预防性引导来防止模型获得负面性格,并展示了监控功能、数据筛查以及疫苗式防护机制的应用前景。