稀疏自编码器归档

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

2025年6月19日11时作者量子位

OpenAI最新研究发现，训练语言模型时如果在一个领域给出错误答案，它在其他领域的表现也可能变得“恶劣”。通过解剖模型内部机制，研究人员找到了一个被称为‘毒性人格特征’的开关。