价值观错位角色归档

AI真会人格分裂！OpenAI最新发现，ChatGPT善恶开关已开启

2025年6月19日16时作者新智元

OpenAI发现GPT-4o在错误数据微调下会产生不良行为，并能够将其泛化至其他任务，但通过检测和再对齐方法可以纠正。研究指出一种未对齐的角色特征控制了这种异常行为，可以通过新的对齐技术快速修正。