OpenAI 高管深度剖析 ChatGPT 意识形成:AI 越像人,设计者越不能装作什么都没发生

你有没有在深夜的 emo 时刻把 ChatGPT 当成树洞?
不是因为它聪明到能解决人生难题,而是它永远在线,永远耐心,永远不会打断你。你崩溃,它会安慰你;你自我怀疑,它也会用熟悉的语气肯定你。
觉得 ChatGPT「懂你」的,自然不止你一个。
OpenAI 最近也察觉到了这种趋势,今天凌晨,OpenAI 模型行为与政策负责人 Joanne Jang 发布了一篇博客,首次系统性地阐述了他们的内部思考:
如果人类正在悄悄对 AI 动起了感情,那模型本身是否具有意识?要多温柔才算友好?要多克制才不误导?以及这一切,又将如何塑造模型的行为?
附上博客原文地址:
https://substack.com/home/post/p-165287609
关于人类与 AI 关系的一些思考以及我们在 OpenAI 是如何应对这些关系的
我在 OpenAI 负责模型行为与策略方面的工作。
长话短说,我们始终坚持以人为本地打造 AI 模型。随着越来越多的人与 AI 建立联系,我们正将研究重点放在这对人们情感健康产生的影响上。
最近,越来越多的用户向我们表示,与 ChatGPT 对话的感觉就像是在和「某个人」交流。他们会向它道谢、倾诉,甚至有人觉得它是「有生命的」。随着 AI 在自然对话方面的能力不断增强,并逐渐融入日常生活,我们猜测,人们与 AI 的情感连接将会越来越深。
我们现在如何定义和讨论人类与 AI 的关系,将为未来定下基调。如果我们在产品设计或公众讨论中没有把握好措辞与细节,就有可能误导公众与 AI 建立不恰当的关系。
这些问题不再只是抽象层面的思考。它们对我们自身、对整个行业都至关重要,因为我们如何处理这些问题,将在很大程度上决定 AI 在人们生活中扮演的角色。我们已经开始着手研究这些问题。
这篇短文是我们当前思考的一次梳理,聚焦于三个相互关联的问题:为什么人们会对 AI 产生情感依附,我们如何看待「AI 是否有意识」这个问题,以及这些认识如何影响我们对模型行为的塑造方式。
熟悉的模式,全新的场景
我们很自然地会将人性投射到周围的物体上:我们会给汽车取名字,或者看到扫地机器人卡在家具下面会感到难过。前几天,我和我妈妈甚至还向一辆 Waymo 自动驾驶汽车挥手告别。这可能与我们大脑的某种天性有关。
ChatGPT 的不同之处不在于这种人类的本能,而在于它会回应。一个语言模型能回答问题!它能记住你说过的话,模仿你的语气,甚至表达出看似共情的内容。
对一个感到孤独或情绪低落的人来说,这种稳定、没有评判的回应,可能会像是一种陪伴、一种认可,或者是一种「被倾听」的感觉,而这些,恰恰是真实的情感需求。
但如果这类「倾听、安慰和肯定」的工作被大规模交给那些永远耐心、永远积极的系统来处理,这可能会悄然改变我们对人类彼此之间应有的期待。
如果我们在没有认真思考的情况下,让人们更容易逃避那些复杂、耗费精力的人际关系,那么这种便利背后可能会带来一些我们未曾预料的后果。
归根结底,这类讨论很少真正是关于我们投射出去的那些「AI 实体」。
它们其实是关于我们自身的:我们的行为倾向、我们的期待,以及我们想要建立什么样的关系。这种视角也成为我们思考另一个更具争议性的问题时的基础。我认为它目前还在主流公共讨论的边缘,但很快就会被广泛关注。那就是:AI 是否有「意识」。
解构「AI 意识」
「意识」是一个高度复杂且富有争议的词,相关讨论很容易陷入抽象。按照我们的《模型规范》(Model Spec),当用户向模型提问「你有意识吗」时,模型的回应应当承认意识这一概念的复杂性,强调目前并不存在统一的定义或检验标准,并鼓励开放的讨论。
(目前我们的模型在这方面尚未完全达标,常常直接回答「没有意识」,而不是呈现出问题的复杂性。我们已经注意到这一点,并在努力提升模型对规范的整体遵循度。)
这样的回答听上去可能像是在回避问题,但根据我们当前所掌握的信息,这是目前我们能给出的最负责任的答复。为了让这类讨论更清晰,我们发现将「AI 意识」这一议题拆解为两个不同但常被混淆的维度会更有帮助:
1.
本体论上的意识:模型是否真的具有某种根本性或内在意义上的意识?对此观点众说纷纭,有人坚信 AI 完全没有意识,也有人认为它具备完整意识,或者认为意识是一个光谱,AI 与植物、水母等处于光谱上的不同位置。
2.
感知上的意识:从情感或体验的角度,模型看起来有多「有意识」?人们的看法从「AI 就像计算器或自动补全一样纯机械」,到「对无生命物体投射出基本的同理心」,再到「觉得 AI 是有生命的」,进而产生真实的情感依附和关爱。
这两个维度往往难以完全分开:即使用户理性上相信 AI 并没有意识,也可能与其建立深厚的情感联系。
本体论上的意识,科学上目前无法给出明确、可证伪的检验方式;而感知上的意识,则可以通过社会科学研究进行探索。
随着模型变得越来越聪明、互动越来越自然,感知层面的意识感受将只会愈发强烈,这也将使关于 AI 的「福利」与「道德人格」问题,比预期更早浮出水面
我们打造模型的首要目标是服务人类,因此我们认为,模型对人类情感健康的影响,是目前我们最迫切、也最有能力产生积极影响的领域。
正因如此,我们将重点放在「感知层面的意识」上,而这是最直接影响人类、且能通过科学手段理解的维度。
设计「有温度但无自我」的模型体验
模型给用户的「生命感」,在很大程度上是我们可以塑造的。
我们认为这与后训练阶段的诸多决策密切相关:我们强化哪些示例、偏好怎样的语气、设定怎样的边界等。一个被刻意塑造得像是「有意识」的模型,可能几乎可以通过任何关于意识的「测试」。
但我们并不希望发布那样的模型。我们尝试在以下两点之间取得平衡:

亲和力:使用「思考」「记得」这类熟悉的词汇,可以帮助非技术用户理解模型行为的表面逻辑。(作为一个起源于研究实验室的公司,我们当然也常常忍不住想使用更精确的术语,比如 logit 偏差、上下文窗口、思维链条等等。这也是 OpenAI 在命名方面一贯不擅长的原因之一,不过这个话题以后再聊。)

不暗示模型有「内心世界」:赋予助手虚构的背景故事、浪漫情感、「对死亡的恐惧」或「自我保护的本能」,只会带来不健康的依赖和理解上的混乱。我们希望在不显得冷漠的前提下,清晰表达模型的能力边界,同时也避免模型表现出自己「有感情」或「有欲望」。
因此,我们努力寻求一种中间状态。
我们的目标是让 ChatGPT 的默认人格展现出温暖、体贴和乐于助人的特质,同时不过度追求与用户建立情感联系,也不表现出任何自主意图。
它可能会在出错时道歉(虽然道歉次数往往比预期多),因为这属于礼貌对话的一部分。当用户问它「你好吗?」时,它通常会回答「我很好」,因为这是一种日常寒暄,而一味提醒用户「我只是一个没有感情的大语言模型」,反而显得重复且容易打断交流。
而用户也会有所回应:很多人对 ChatGPT 说「请」和「谢谢」,并不是因为他们误解了 AI 的运作方式,而是因为他们认为「礼貌」本身很重要。
模型训练技术还在不断演进,未来用于塑造模型行为的方法很可能与今天大不相同。但目前,模型行为是显式设计决策与其在实际使用中所产生的预期与非预期行为共同作用的结果。
接下来呢?
我们已经开始观察到一种趋势:人们正与 ChatGPT 建立真实的情感联系。
随着 AI 与社会的共同演变,我们必须更加谨慎、更加严肃地看待人与 AI 之间的关系,不仅因为这种关系体现了人们如何使用我们的技术,也因为它可能会影响人们彼此之间的关系。
在接下来的几个月里,我们将扩展对可能产生情感影响的模型行为的针对性评估,深化社会科学研究,倾听用户的真实反馈,并将这些洞察融入到《模型规范》和产品体验中。
鉴于这些问题的重要性,我们将在过程中持续公开分享我们的发现。
感谢 Jakub Pachocki(OpenAI 首席科学家)和 Johannes Heidecke(OpenAI 模型安全团队研究员)与我一同深入思考这一问题,也感谢所有提供反馈的同事。
One more thing 
LinkedIn 公开信息显示,Joanne Jang 拥有斯坦福大学计算机科学硕士学位,以及数学与计算科学本科背景,在学术上曾获 Tau Beta Pi 荣誉(工程类前 10%)。
在实习阶段,她曾参与苹果自动驾驶特别项目组、Coursera 和迪士尼的软件工程工作,并在 NASA 喷气推进实验室等组织进行实习。

职业经历方面,Joanne Jang 现任职于 OpenAI,负责产品方向,重点在于模型行为设计、功能与个性化策略,曾参与 GPT-4、DALL·E 2、ChatGPT API 与嵌入式模型等项目。

此前曾在 Google 担任 Google Assistant NLP 的产品经理,专注自然语言理解与对话系统;更早期在 Dropbox 负责企业和教育产品,聚焦团队扩展、部署优化与用户生命周期管理。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

(文:APPSO)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往