OpenAI 正式发布企业级 AI 落地实践报告:7大经验教训


 

OpenAI 发布了一份名为《AI in the Enterprise》的报告,内容非常充实,包括如何将 AI 引入工作,AI 如何重塑新一代工作模式,AI 如何解锁开发者能力,以及如何评估,微调模型。分享了与 7 家“前沿公司”合作的经验教训。不仅仅有技术展示,更有实打实的落地策略。第一时间啃完这份报告,给大家划个重点

地址:

https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf

OpenAI 观察到,AI 正在三大前线为企业带来显著、可衡量的改进:

一是提升员工效能 (Workforce performance),让员工在更短时间内,产出更高质量的工作成果;

二是自动化日常运营 (Automating routine operations),把人从重复性工作中解放出来,聚焦高价值任务;

三是赋能产品创新 (Powering products),提供更相关、更快速响应的客户体验。

但要注意,用 AI 跟搞传统软件或云应用不是一回事。成功的公司往往把它视为一种新范式,拥抱实验心态和迭代方法,这样才能更快看到价值,并获得用户和决策者的支持

OpenAI 自身也采用迭代开发 (iterative development)的方式,快速部署、获取反馈、持续改进模型性能和安全性。这意味着,合作企业能更早用上新技术,并且他们的反馈会直接影响 AI 的未来形态

七大核心经验:来自前沿企业的实战真经

报告总结了 7 条关键经验,每条都配有具体案例,干货满满:

Lesson 1: 从评估 (Evals) 开始,确保质量与安全

核心思想:在投入生产前,必须用系统化的评估流程来衡量 AI 模型在具体场景下的表现。这不仅是“测验”,更是持续改进的基础。

案例:摩根士丹利 (Morgan Stanley)

场景:金融服务,高度敏感和个性化。核心诉求是提升财务顾问效率

做法:对每个 AI 应用进行严格评估 (evals),具体包括评估语言翻译的准确性和质量;评估内容摘要的准确性、相关性和连贯性;以及将 AI 输出与人类专家对比,评判准确性和相关性

效果:98% 的顾问每天使用 OpenAI;文档信息获取率从 20% 跃升至 80%,搜索时间大幅缩短;顾问有更多时间维护客户关系,过去需要几天的跟进,现在几小时内完成

什么是 Evals? 这是一个验证和测试模型输出的过程。严谨的 Evals 能确保应用稳定可靠,更能抵抗变化。它围绕具体任务,对照基准(如准确度、合规性、安全性)来衡量模型输出质量

Lesson 2: 将 AI 嵌入产品,创造新体验

核心思想:利用 AI 处理海量数据、自动化繁琐任务,从而创造更人性化、个性化的客户体验。

案例:Indeed (全球最大招聘网站)

场景:优化职位匹配,提升用户体验

做法:使用 GPT-4o mini 模型,不仅推荐职位,更重要的是向求职者解释“为什么”这个职位适合他。AI 分析候选人背景和经验,生成个性化的“邀请申请 (Invite to Apply)”理由

效果:对比旧引擎,新版职位申请发起率提升 20%,下游成功率(雇主更倾向于雇佣)提升 13%。考虑到 Indeed 每月发送超 2000 万条信息、拥有 3.5 亿月活用户,这个提升的商业影响巨大

优化:为控制成本和提高效率(因为调用量大),OpenAI 协助 Indeed 微调了一个更小的 GPT 模型,在减少 60% token 消耗的情况下,达到了相似的效果。

Lesson 3: 立刻行动,尽早投资,享受复利

核心思想:AI 不是即插即用的方案,其价值通过迭代不断增长。越早开始,组织从“知识复利”中获益越多。

案例:Klarna (全球支付与购物平台)

场景:优化客户服务

做法:引入 AI 客服助手。通过持续测试和优化,几个月内,AI 处理了三分之二的客服聊天,相当于数百名人工坐席的工作量,平均解决时间从 11 分钟缩短到 2 分钟

效果:预计带来 4000 万美元的利润提升,同时客户满意度与人工客服持平。更重要的是,90% 的 Klarna 员工在日常工作中使用 AI,全员对 AI 的熟悉加速了内部创新和客户体验的持续优化,AI 的效益在整个业务中实现了“复利增长”

Lesson 4: 定制与微调 (Fine-tune) 模型,释放特定价值

核心思想:针对特定业务数据和需求定制或微调模型,能显著提升 AI 应用的价值。

案例:Lowe’s (家得宝)

场景:改善电商平台的商品搜索准确性和相关性

挑战:供应商众多,产品数据不完整或不一致

做法:与 OpenAI 合作,微调 (fine-tuning) 模型。这不仅需要准确的产品描述和标签,还需要理解不同品类下消费者搜索行为的动态变化

效果:产品标签准确率提升 20%,错误检测能力提升 60%

什么是 Fine-tuning? 如果说 GPT 模型是“成衣”,那微调就是“量身定制”。用你独有的数据(如产品目录、内部 FAQ)训练模型,让它更懂你的业务术语、风格和场景,输出更相关、更符合品牌调性的结果,同时减少人工编辑和核对,提升效率

Lesson 5: 把 AI 交到一线专家手中

核心思想:最了解业务流程和痛点的人,往往最能找到 AI 的用武之地。让一线专家直接使用 AI,比构建通用方案更有效。

案例:BBVA (西班牙对外银行)

场景:在全球超过 12.5 万员工中推广 AI 应用

做法:与法务、合规、IT 安全团队紧密合作,确保负责任使用的前提下,在全球范围内部署了 ChatGPT Enterprise。然后,鼓励员工自行探索应用场景,创建定制化的 GPTs (Custom GPTs)

效果:5 个月内,员工创建了超过 2900 个定制 GPTs,将许多项目和流程的时间线从几周缩短到几小时。应用遍及多个领域:信贷风险团队用它更快更准地评估信用;法务团队用它每年回答 4 万个关于政策、合规等问题;客户服务团队则用它自动化 NPS 调研的情感分析。AI 的成功应用已扩展到市场、风险管理、运营等更多领域

Lesson 6: 为开发者“松绑”,加速创新

核心思想:开发者资源是许多组织的创新瓶颈。利用 AI 构建开发平台层,可以统一和加速 AI 应用的构建。

案例:Mercado Libre (拉美最大电商和金融科技公司)

场景:解决工程团队不堪重负、创新缓慢的问题

做法:与 OpenAI 合作,基于 GPT-4o 和 GPT-4o mini 构建了一个名为 “Verdi” 的开发平台层。该平台整合了语言模型、Python 节点和 API,以自然语言为核心交互方式,帮助其 1.7 万名开发者更快、更一致地构建高质量 AI 应用,而无需深入源代码。安全、护栏和路由逻辑都内置其中

效果:AI 应用开发显著加速,赋能多项业务,例如通过 GPT-4o mini Vision 提升库存能力 100 倍;将欺诈检测准确率提高到近 99%;定制化产品描述以适应不同方言;通过自动化评论摘要增加订单;并个性化通知以提高参与度

未来:计划用 Verdi 优化物流,减少延迟交付,并在全组织内承担更多高影响力任务

Lesson 7: 设定大胆的自动化目标

核心思想:许多流程中都存在大量重复性工作,是自动化的沃土。不要满足于低效现状,要敢于设定高远目标。

案例:OpenAI 自身

场景:内部支持团队耗费大量时间在访问系统、理解问题、撰写回复和执行操作上

做法:构建了一个内部自动化平台,叠加在现有工作流和系统之上,自动化重复工作,加速洞察和行动。首个用例是在 Gmail 之上工作,自动起草客户回复并触发后续动作(如访问客户数据、知识库,更新账户,创建工单)

效果:该平台每月处理数十万个任务,释放人力从事更高价值的工作。该系统正推广到其他部门。

写在最后

这些案例的共同点是:开放、实验的心态,严谨的评估,以及安全护栏。成功的企业并非一蹴而就地将 AI 注入所有流程,而是先聚焦高回报、低门槛的场景,通过迭代学习,再将经验推广到新领域

结果显而易见:更快的流程、更高的准确性、更个性化的体验,以及更有价值感的工作。

OpenAI 还观察到新趋势:企业开始集成 AI 工作流,利用工具、资源和智能体 (Agents) 来自动化日益复杂的流程。报告中提到了 Operator ,能自主浏览网页、点击按钮、填写表单、跨系统工作的“虚拟员工”,无需定制集成或 API,就能实现端到端的自动化。例如:自动化软件测试和 QA,像真实用户一样交互并标记 UI 问题;以及在没有技术指令或 API 连接的情况下,代表用户更新记录系统

希望 OpenAI 分享的这些经验,能给你带来一些启发

参考:

https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf

 



(文:AI寒武纪)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往