甲骨文副总裁吴承杨:AI 放大了数据优势,数据融合至关重要

作者 | 褚杏娟

“AI 时代为 Oracle 带来的重大机遇,核心在于 AI 放大了数据优势——当前数据的概念已扩展至空间、向量、文本、人际关系等多模态形式,数据库亦需多模融合,如图数据、数据流、数据仓库与数据湖架构等。”甲骨文公司副总裁及中国区董事总经理吴承杨说道。

在 6 月发布的 FY25 财报中,甲骨文整体云业务(含云应用和云基础设施)增长率预计从 2025 财年的 24% 提升至 2026 财年的 40% 以上,全年营收达 574 亿美元。吴承杨将其归功于甲骨文 40 多年在数据库积累的数据理解和云转型战略。

吴承杨表示,与以往经常谈到的分库分表不同,如今数据的多模融合至关重要。Oracle 现在解决的问题就是融合。

“在智能体时代,编排需多步骤推进。若用传统开源数据库,步骤可能达二十步;而用户如果使用 Oracle,它的所有数据集成于一体,可以使步骤精简至四步。”吴承杨对比道。

为什么需要融合数据库

“由于生产流程是无法控制的,所以业务系统最简单的做法就是采用融合数据库。”甲骨文公司中国区技术咨询部高级总监嵇小峰指出,传统分库分表方案在智能体时代面临挑战:若采用多个异构数据库,如 MangoDB、MySQL、Neo4J 等,数据整合的复杂性将远超处理能力。

“如果不采用融合数据库,会出现这样的情况:可能一部分数据用了 MySQL,一部分数据用了 StarRocks,设备产生的 IoT 数据(通常是 JSON 格式)又被存放在了 Mongo 中。一旦要把这些数据提取出来,用 Python 进行机器学习训练,再存入关系型数据库,整个流程无疑会变得很长。”

吴承杨指出,国产数据库往往倾向于在应用层或数据中台解决所有问题,其做法的对错还需要实践来验证。在智能体时代,代码多由机器生成。若想从数据库层面解决安全等问题,数据库结构过于复杂会对 AI 的使用构成挑战。

此外,他认为当前很多企业在开展 AI 项目时,会将现有数据平台的应用抽取到外部,另起炉灶,这其实是一种误区。“AI 不应作为独立项目存在,而应融入整个系统架构。但 AI 难以融入的原因在于架构过于复杂:如果企业连十个数据库的整合、数据中台搭建以及安全管理都无法搞定,自然就无法将 AI 集成进来,这也是许多 AI 项目投入巨大却收效甚微,甚至烂尾的原因。”

“多种数据类型、技术架构和负载的融合,已经是大势所趋。”吴承杨说道,多模融合主要涉及数据类型与整体架构,比如图数据、数据流、 数据仓库与数据湖架构,以及多种应用层级。Oracle 通过一体化架构来解决问题:支持图数据、空间数据、结构化与非结构化数据(如 JSON)的底层融合,内置无限扩展性与安全性,使 AI 自然融入系统。这淡化了对“中台”的依赖,推动多数据类型与技术架构的融合趋势。

落地中的数据需求和安全

嵇小峰表示,由于数据量庞大,很多数据库本身不支持向量处理。而向量技术涉及向量索引、多种相似性检索算法等诸多内容,且不同场景适用的算法不同。以基因比对案例为例,就需要特殊算法,因此向量数据库检索是否具备可开放、可扩展的结构至关重要。

除此之外,数据集成也是很重要的。根据介绍,Oracle GoldenGate 技术可将分布在不同数据库中的数据集成起来,对于已向量化的数据也能实现集成。在开发框架方面,Oracle 很早就支持 LangChain 开发框架,通过其兼容性开发框架 API,可直接访问 Oracle 数据库进行向量操作,支持企业客户通过自然语言与数据库交互。

嵇小峰表示,企业在构建 Agent AI 时,有两个关键要点尤为重要:重点关注数据访问需求和安全。

企业应用大多围绕数据中心内的业务数据展开,如生产数据、库存数据、财务数据及客户数据等,而非通讯网关类的数据流处理工作。“借助开发工具快速搭建 AI 应用至关重要。”

以 Oracle 的 APEX 为例,其对 AI 的支持体现在两个层面:一方面,开发过程中它是 AI Assistant,类似 Cursor 工具,支持通过自然语言交互构建应用,例如用户提出搭建人力资源应用并明确功能需求后,APEX 会自动生成应用蓝图,辅助开发流程;另一方面,开发出的应用本身具备 AI 能力,可通过简化手段构建 RAG 应用或类似聊天机器人的功能,直接对接大模型,且平台提供了丰富的控件供调用。

“安全问题在 AI 应用时代的重要性再怎么强调都不为过。”嵇小峰说道。

AI 时代的应用范式与传统三层架构(数据库层、中间层、应用层)有所不同。传统模式下,开发人员在中间层明确编写业务逻辑,对用户权限和数据访问控制有清晰把控;但在 AI 时代,大模型生成的代码可能多达数千行,开发人员难以逐行审查,效率与安全性之间存在矛盾,且 Agent 的控制逻辑由大模型主导,其走向对开发人员和业务人员而言并非完全透明。

另外,对于大模型的幻觉问题,吴承杨认为,将多学科、多种数据类型的分析与大模型生成的内容相结合,最终得到的结果基本上就能解决所谓的 AI 幻觉问题。

“大语言模型的幻觉是其自身带来的,无法从根本上解决。但在企业级应用中,通过对多种数据的分析,最终可以将准确率从 70% 提升到 90%,甚至更高。在企业级应用中,90% 的准确率是一条基本线,如果达不到这一标准,就不会有人使用。”吴承杨解释道,如这些数据都存储在融合数据库里,解决这类问题就相对简单了。

(文:AI前线)

发表评论