




但去年九月份之后,随着国家对民营企业和整个市场政策的变化,金融行业经历了一段时间的“练内功”过程,做核心系统、信创、基础设施建设。现在每个金融机构都真切感受到了大模型的火热和压力,这是认知上最大的变化——从观望到快速拥抱,这个转变速度之快在我从业多年都很少见。
现在面临的挑战是:在大家认知高度统一、拥抱节奏这么快的情况下,我们如何提供“AI 平权”方案,让不同规模的机构(大银行、小银行、保险、证券等)都能找到相对清晰确定的落地路线。
我们不是说自己的路线就是绝对标准,但要在模型工程、数据工程、应用工程等方面实现较好的结合,让金融机构不需要投入很高成本、很长周期或大量人才准备,就能快速响应 AI 浪潮。
这也是为什么我们今天开这个会,做一些产品发布。我们也是被市场需求推动着快速迭代产品,包括开源模型能力、优化落地方案、完善基础设施等。
重定义 Agent:模型内化能力才是真智能


因为业务部门会发现 AI 还不够智能——金融业务流程通常很复杂,需要设计很多步骤来避免幻觉、确保回答质量,这些都依赖人工编写(比如应该怎么提问、怎么回答)。如果每一步都要靠人工设计,就不够智能了。
正确的方向是通过强化学习把 Agent 的泛化能力训练到模型内部,而不是依赖工程平台。我们认为真正的 Agent 等于模型能力,不是工具、不是流程编排,也不是 Prompt Engineering 加编排组合。要把这些能力变成模型的内在能力,可以先训练小模型,再整合成大模型。
举个例子:新闻稿件设计。模型应该能够按照媒体机构的审稿规则,自动完成文字校对和逻辑检查。这个过程的挑战是需要懂后训练、蒸馏等技术的人才,建立闭环流程——资深编辑指导模型什么样的稿件结构、内容长度是合格的,通过不断迭代提升质量。这就像老师教学生的过程。
同理,金融领域的审计报告、财务报告、投研报告等,也都是将行业知识(如审计规则、信贷准入标准、理财建议逻辑等)通过训练让大模型掌握。不同岗位的专业知识都可以通过这种方式让模型学习,这就是基础模型与行业岗位结合的价值。
MoA 架构:大模型+专业模型的专业共舞
:关于 MoA 架构的选择,金融机构目前是什么样的考虑?应该如何选择和实现?

金融行业有各种细分岗位需求,我们建议采用 MoA 架构。这里的 A 指的是专属垂类模型——基础大模型与成千上万不同岗位的蒸馏小尺寸模型结合。不能把所有能力都统一到一个基础模型中,所以采用这种“通识教育+专业教育”的模式:
-
基础大模型提供通用智能(相当于通识教育)
-
各领域小尺寸模型提供专业能力(如审计、风控等专业领域)
小尺寸模型可以用很少的算力,基于自身业务数据快速实现专业价值。不像以前需要把数据送到大模型重新训练——就像一个人同时学 100 门课很难,但专精一门课就容易得多。
目前很多大行已经意识到,自己投入做基础大模型很难竞争过专业模型公司。它们现在的策略是:基础模型选择开源方案(如 DeepSeek、通义千问等),然后自己做强化学习和蒸馏,将专有数据与开源模型结合,训练出专属垂类模型。
MoA 架构的优势在于:当基础模型迭代更新时,只需对小模型重新做两周左右的蒸馏即可,不需要几个月重新训练。这样金融机构可以灵活切换不同开源模型(比如发现 Qwen 效果更好时),所需算力少、时间短。
数据飞轮:让模型像人一样积累经验
:阿里云的数据飞轮解决方案主要帮助金融机构解决什么问题?特别是如何解决大模型幻觉问题?金融机构使用这个产品时,如何结合自身数据实现更简单高效的落地?
:数据飞轮解决方案是实现 MoA 架构的关键。解决幻觉问题有几个层面:
第一,RAG(检索增强生成)仍然是基础方法,不能完全抛弃。但对于复杂任务,仅靠 RAG 是不够的,因为它难以理解深层意图和执行多步操作。比如生成审计报告涉及很多步骤,仅靠 RAG 无法保证准确性和一致性。
我们的方法是在 MoA 架构中加入专业校验小模型。比如审计场景,可以训练一个专门负责核对的小模型。人类审计员会使用各种工具检查报告(如数据勾稽、文字一致性、计算验证等),我们可以把这些检查能力也训练到模型中。
具体实现上:
1. 首先构建简单的 Agent 框架,不追求过于复杂的智能体;
2.选择具体业务场景,设计清晰的步骤流程;
3.将业务规则和知识训练到模型中,而非硬编码;
4.通过持续学习不断优化(如从 70 分提升到 85 分)。
这就像人类工作经验积累的过程,只不过模型学习速度更快。通过足够多的优质样本和反馈循环,模型可以快速达到专业水平。
三大战略:全栈模型、Agent 深化、生态融合
:现在金融机构都在拥抱大模型,阿里云下一步的重点会放在什么地方?
:阿里云的特点是我们提供全栈能力。重点方向有三个:
第一,模型层面坚持“全尺寸”策略,从基础模型到推理模型到融合模型都会布局。不同行业对模型的需求差异很大,我们会针对金融、互联网等行业特点发展专用模型。
第二,深化 Agent 能力。今天邀请夸克、羚羊等业务部门来分享,就是因为阿里巴巴内部各业务都在 Agent 化和 AI 化。我们会把这种经验助力给金融机构。
第三,生态融合。未来可能不再是 APP 时代,而是智能体时代。比如养老金融服务可以嵌入高德的打车优惠,旅行规划可以结合飞猪的酒店服务。这种跨业务场景的智能融合会创造新价值。
未来的竞争不再是抢占入口,而是比拼智能服务质量。金融机构需要建立自己的智能服务体系,这可能类似于操作系统概念——金融 OA 系统将演变为智能体平台。
从 RAG 到 Agent:用可观测系统量化真实价值
:在金融行业落地时,如何有效评估实际效果和业务价值?会上提到的Agent可观测评测系统能力如何?
:目前评估结果很积极:
1. 意图理解准确率已从原来的水平提升到 90%-99%;
2. 传统 RAG 方法正在被快速替代;
3. 业务部门实测后直接要求上线(因为效果明显提升)。
复杂任务场景还在完善中,但方向已获得行业认可。过去一年大家主要用 RAG 和 Prompt Engineering,现在这些方法正在被更先进的模型架构替代。
我们推出的可观测评测系统能提供量化指标(如准确率、任务完成度等),帮助机构客观评估效果。同时通过展示生态伙伴的实际案例(如某业务场景使用某模型取得什么提升),让金融机构更直观地理解应用价值。

(文:特工宇宙)