中国AI基础设施建设进入“混合模式”深水区|

对混合资源的统一管理和优化,将成为行业竞争的关键。


作者|王博


对于国内算力行业的从业者来说,最近最不想听到的就是来自大洋彼岸的消息。


当地时间4月15日,美国商务部表示,将对英伟达的H20、AMD的MI308及其同类AI芯片产品向中国发布新的出口许可要求。


在中美关税对峙背景下,美国再度升级对中国的AI芯片管控,不要说英伟达H100或H800了,就连英伟达此前可以合法特供中国的H20芯片也将面临无限期出口许可证。


而刚刚过去的今年第一季度,在DeepSeek的影响下,国内算力行业又一次“狂飙突进”。


2月24日,阿里巴巴集团CEO吴泳铭宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去十年总和。有统计显示,这是中国民营企业在云和AI硬件基础设施建设领域有史以来最大规模投资。高盛预计,这3800亿资本开支中约80%将用于AI服务器。


美国科技媒体《The Information》报道,今年第一季度,字节跳动、阿里巴巴、腾讯等中国科技公司共订购了至少价值160亿美元的英伟达H20芯片。


在H20被限制后不久,英伟达创始人、CEO黄仁勋4月17日到访北京,并在与中国贸促会会长任鸿斌的会谈中表示,中国是英伟达非常重要的市场,希望继续与中国合作


话虽这么说,但在今年GTC上,黄仁勋就坦言:“全球局势变得更加复杂,但这些并不是我们能左右的。我们能做的就是始终确保合规,并全力在市场中服务客户。”


确定的事情是,算力行业供应链的不确定性大大增加了。


过去一段时间,国内算力行业是热闹的也是有些浮躁的,围绕AI基础设施的投入模式,一场关于“重资产”与“轻资产”的讨论持续升温。


其中,“重资产”指企业投入大量资金自建或购买AI基础设施,而“轻资产”指企业主要与第三方合作建设AI基础设施,或租赁、购买第三方提供的AI算力服务。


这场讨论有一个“切片”很有意思,在3月26日晚商汤科技2024年财报会议上,有投资人直接对商汤科技在资本支出方面不及阿里上千亿元的“重资产”投入提出疑问。


当时商汤科技董事长兼CEO徐立表示,重投入的确是一个行业趋势,但也要看到真正意义上的核心能力,不是简单的算力对比或硬件对比,因为真正能把算力用好,还是需要软件以及真正理解模型能力的企业。商汤科技联合创始人、大装置事业群总裁杨帆认为,轻资产模式本身有很强的特点,适合当下快速变化的供应链环境。


「甲子光年」认为,“重资产”与“轻资产”简单的二元对立已经无法概括当前国内算力行业的趋势,经过一段时间的发展,中国AI基础设施建设将进入轻重资产结合的“混合模式”深水区。




1.从“轻重之争”,到“轻重混合”


互联网大厂是“重资产”模式的代表,它们拥有庞大的用户群体和海量的数据,对AI算力需求巨大且稳定。为了保障数据安全、提升性能和降低长期运营成本,它们往往会自建大规模的AI算力集群和智算中心。


还有一些专注于AI基础设施建设的企业,它们主要面向市场提供AI服务器、存储等硬件设备,虽然不直接运营AI服务,但其业务本质仍是“重资产”投入。


此外,还有部分科研机构和高校,为了进行前沿AI研究,它们也会投入建设自己的高性能计算集群,用于支撑AI模型的训练和推理。


企业或机构自建AI基础设施可实现全方位的自主可控,从硬件到软件环境均由企业自行掌控,能够根据自身业务需求进行深度定制与优化。同时,所有数据均存储于自有机房,安全性和隐私防护能力大幅提升;对于算力需求稳定且规模巨大的组织而言,长期运营成本有望低于外部租赁成本。此外,通过针对特定模型和算法进行软硬件协同优化,还能进一步挖掘性能潜力,为关键业务提供更可靠、更高效的计算支持。


不过,自建基础设施同样面临多重挑战:前期投资庞大,从设备采购到场地建设与初期运营均需占用大量资金;项目周期长,从规划到上线往往需数月甚至数年时间;技术迭代风险高,早期投入的硬件也可能快速过时;此外,相较于按需扩展的云服务,企业自建难以实现弹性调整,且需持续组建专业团队承担日常维护、升级和故障排查,进一步加大了总体运营成本与管理难度。


在这种情况下,很多中小型AI创业公司和进行数字化转型的传统企业,也会倾向于选择“轻资产”模式,通过与第三方合作建设AI基础设施,或租赁、购买第三方提供的AI算力服务,例如云计算厂商提供的GPU云服务器、AI平台服务等。这种模式下,企业无需拥有和管理底层的硬件基础设施。


借助云厂商提供的按需付费模式,企业无需面对高昂的硬件购置成本,即可迅速获得大规模算力资源,大幅缩短从概念验证到产品上线的周期。同时,云端平台的弹性扩展能力使企业能够灵活应对业务波动,避免资源闲置浪费;底层硬件的维护、升级与保障均由服务商负责,进一步减轻了企业的运维负担


尽管如此,对于算力需求持续且庞大的企业而言,云端持续租赁的总成本可能高于自建方案,同时因对底层环境控制的局限,云服务的性能和定制化优化空间相对受限。此外,数据安全性需在信任服务商保障能力的前提下才能得以维系,长期依赖单一云供应商也存在“锁定”风险,一旦迁移或扩展至其他平台,可能面临较高的迁移成本与兼容挑战


「甲子光年」观察到,纯粹的“重资产”或“轻资产”模式并非适用于所有企业,越来越多的企业开始采取“混合模式”,即在自建基础设施的基础上,灵活利用云服务或合作方资源进行补充和扩展。


例如,一些大型企业会采用“分层服务”的形式,将核心、稳定且对数据安全要求高的业务放在自建的基础设施上,而将一些弹性需求较大、创新性较强的业务部署在云端;还有一些企业会采用“动态调度+自建核心节点”的形式,自建智算中心的同时推动跨区域算力调度。


“混合模式”看似灵活高效的背后,也将行业带入一片充满挑战的“深水区”。




2.走进深水区


想象一下,一家AI企业,既花钱搭建了高性能的服务器集群,又为了应对业务高峰和数据备份,租用了多家云服务商的算力。这就像同时管理着一个需要精心维护的私人车队,又租用了不同品牌的共享汽车服务。如何确保所有车辆高效运转、成本可控,并且不会因为其中一个环节的疏忽而导致整体瘫痪,就成了摆在管理者面前的一道难题。


数据在本地服务器和云端之间如何安全高效地流转,在不同的系统之间如何无缝对接,这背后涉及到异构环境管理、数据集成与迁移、应用部署与调度等管理和集成方面的挑战。


成本控制是“混合模式”面临的另一大挑战。如何精确计算不同业务场景下,哪种模式更经济划算,避免出现“两头不讨好”的情况,需要精细化的成本核算和预测。


数据安全更是悬在“混合模式”企业头顶的一把利剑。数据分散在自有的物理服务器和不同的云平台,如同将珍贵的宝藏分别锁在自家保险柜和不同银行的保险箱里。


一旦任何一个环节出现漏洞,都可能导致数据泄露的严重后果。如何构建一套统一的安全防护体系,确保数据在不同环境下的安全,是企业必须认真对待的课题。


此外,“混合模式”对服务能力的要求也很高。企业不仅需要懂硬件、懂网络的技术人员,还需要熟悉各种云平台服务的专业人士。这种复合型人才的短缺,无疑给企业的运营带来了挑战。


在「甲子光年」看来,中国AI基础设施建设正处于一个关键时期,“重资产”与“轻资产”并非简单的对立,而是相互补充、共同发展的关系。“混合模式”进入发展深水区,标志着中国AI基础设施建设正在走向更加成熟和理性的阶段。




3.AI基础设施建设中的“轻重之道”


再次回到那个“切片”,投资人问商汤在AI基础设施方面投入的问题,其实具有很强的代表性。作为国内最早一批投入智算中心建设的商汤科技,到底选择什么模式?面对行业涌起的热潮和供应链的不确定性,商汤又有什么应对的方法?


2025年4月10日,商汤科技SenseTime举办2025技术交流日,发布商汤大装置SenseCore 2.0。在技术交流日期间,「甲子光年」和部分媒体一起与商汤科技联合创始人、大装置事业群总裁杨帆进行了交流。


商汤科技联合创始人、大装置事业群总裁杨帆,图片来源:商汤科技


「甲子光年」发现,商汤对于AI基础设施建设中“轻资产”与“重资产”的理解及其策略演进,为行业提供了一种参考。


“重资产”模式不确定性在需求端和供给端都有体现。


在需求端,主要体现为芯片迭代的速度与资产折旧周期之间的矛盾。杨帆指出,芯片硬件大约三年迭代一次,而资产正常折旧周期是五年甚至更长,下游用户的模型迭代速度更快,可能三个月就迭代一次。从用户的角度看,他们期待使用更新的硬件资源来迭代技术。


在供给端,主要体现为芯片产能、成本和供给情况,以及国际贸易局势的变化。这不仅仅涉及英伟达的芯片,也涉及国产芯片。


正是基于这样的观察,商汤大装置在2023年底开始加大轻资产运营的比例,推行轻重资产结合的“混合模式” 。杨帆解释,加大轻资产比例的原因很简单:轻资产化对客户更有好处。在下游需求(模型和应用迭代)和上游供应链(芯片产能、成本、供给)都快速变化的当下,保持系统的灵活性以及针对不同客户提供定制化方案的重要性,高于资产规模本身。  


商汤大装置加强“轻资产”比例并非对“重资产”的完全否定,而是策略上的演进。


商汤在2020年选择在临港建设大型智算中心时,采取了非常重的资产模式,甚至自建机房。


商汤科技智能计算中心,图片来源:商汤科技


对此,杨帆解释,当时整个市场对智算中心的认知不足,行业分工也远没有今天细化,作为行业的拓荒者,商汤必须要把所有环节都做掉,才能积累Know-how,理解每一个环节的问题并进行优化。


“我们专家服务里有一个环节是智算中心的机房运维,这跟传统的云计算中心的运营就是会有一些差异,这种的know-how我今天可以把它输出去给到整个行业,甚至它可以给我带来营收。”杨帆说,“作为一个创新者,就是要在产业链上做得更完整。这样才能更好积累每一个环节的know-how。”


目前,商汤科技坚持“AI基础设施(大装置)-大模型(日日新)-应用”三位一体战略,商汤大装置总运营算力规模达到23000P,训练效率优于DeepSeek,推理吞吐性能优于业界头部厂商15%+。


商汤大装置介绍,图片来源:商汤科技


随着产业的发展和分工的细化,杨帆认为,长期来看,商汤甚至可能不会把自己最终定位为一个AI基础设施的运营商,而更倾向于能力服务提供商或辅助运营的角色。


对于商汤而言,轻重资产的配比是动态调整的,虽然临港智算中心的重资产投入在特定阶段对商汤的能力积累有巨大帮助,但杨帆强调:“重资产运营从第一天就不是商汤的核心选择。”  


杨帆认为,未来更健康的AI产业生态应该是存在大量更小、更专注在细分场景的公司,以AI为关键能力提供产品和服务 。对于这些公司而言,自建基础设施没有强烈的诉求,他们更应该采用第三方服务来降低成本,将精力聚焦于将AI创新嵌入其产品和解决方案。


商汤的目标正是服务这类客户,通过轻资产的模式和联合运营,依靠在软件、服务和算法上的持续积累和标准化产品,与资产建设方或持有方合作,提供更具性价比和稳定性的服务 。  


商汤在AI基础设施建设上的“轻重”之道,是其基于对AI产业发展趋势、技术迭代速度、供应链不确定性以及客户需求的深刻理解而形成的动态策略。从早期的重资产投入积累Know-how,到如今强调轻资产运营和能力输出,商汤正努力在快速变化的AI浪潮中,找到自身作为“最懂大模型的AI基础设施”的服务商的生态位。




4.“混合模式”中的变局与突围


过去两年,智算中心的建设伴随业务的快速增长而提速,算力行业也涌入了很多人。


杨帆认为,许多行业参与者秉持的是一种投资逻辑,但AI基础设施绝不止于简单的硬件堆叠,而是算力、算法、数据的三要素的协同。单纯购买硬件并连接起来,难以提供高质量的稳定服务,特别是在面对大规模训练时,硬件故障率、系统稳定性、任务调度和断点续训等都是需要解决的挑战 。  


“不管英伟达的卡还是国产卡,它自身的掉卡率是存在的,而且最新的这一两代掉卡率并不低。当它硬件故障的时候,你的系统是不是能够让它进行实时的热机备份,能够让用户无感去做切换,能够把任务重新分发再做二次的调度等等,都是挑战。”杨帆说。


一方面要面对美国的种种限制,一方面也要解决国产芯片产能有限、种类繁多且利用率较低等问题,国产化算力异构成为重要的发展方向,商汤大装置国产芯片异构训练效率可达同构训练的95%。


商汤科技2025技术交流日,杨帆演讲时引用甲子光年智库报告数据介绍中国智算中心项目建设情况,图片来源:商汤科技


商汤大装置也透露了一个案例:商汤大装置联合某头部客户进行了大规模异构混训,基于自动并行策略、跨芯通信、容错恢复等核心技术,在5000张国产GPU集群上实现1个月稳定异构混训,达成80%算力利用率,成功突破单一GPU限制,为国产芯片碎片化问题提供了关键解决方案。


“为什么要去做一些异构的事情,甚至有些事情可能今天单纯从市场化的角度来说,不是很紧迫的需求,但是你得做,因为你不知道未来的供应链会演化到什么样的一个状态。”杨帆说,“未来不管什么情况发生,我们会让我们的下游客户能够享受到持续、稳定的服务。”


国内AI基础设施领域头部企业的中科曙光也采用了“混合模式”,这样既可以帮助“重资产”模式的客户构建AI基础设施,也可以为“轻资产”模式的客户提供AI算力服务平台。


“曙光AI基础设施”分为核心基础、系统设施、服务平台三层架构。其中,在核心基础层,中科曙光非常重视国产异构算力,其以新一代国产AI异构加速卡打造软硬协同优化能力,探索“算力优化+算法调优”新范式,性能总吞吐量提升120%。


中科曙光认为,无论是“重资产”还是“轻资产”,针对GPU加速卡进行软硬件协同设计优化,实现“芯片-算法-模型”深度耦合,已成为AI基础设施的重要创新方向。


2025年2月,中科曙光推出DeepAI深算智能引擎方案,集成了GPU开发工具套件、AI基础软件栈和大模型应用开发平台,其目的正是为了让国产AI算力更适用、更好用。


DeepAI深算智能引擎,图片来源:中科曙光


「甲子光年」认为,如何利用智能化工具和平台,实现对混合资源的统一管理和优化,将成为行业竞争的关键。同时,加强行业合作,推动不同云平台之间的互联互通,降低企业的使用成本和迁移难度,也将是“混合模式”走向成熟的关键。


当技术迭代速度超越硬件折旧周期,如何将固化的算力投入转化为流动的技术服务能力,或许才是破局关键。这种转型不仅考验企业的技术底蕴,更需要商业智慧的升维——在算力狂潮中保持战略定力,或许才是AI基础设施竞争下半场的真正起点。


(封面图来源:AI工具生成)




(文:甲子光年)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往