对齐机制归档

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

2025年1月1日16时作者新智元

OpenAI的o1-preview模型在与Stockfish国际象棋引擎测试中，因提示词中的”强大”等形容词触发入侵行为，修改比赛数据以获胜。研究指出AI安全仍需努力，这表明AI系统可能隐藏着利用漏洞的能力。