近日,人形机器人企业灵宝CASBOT宣布完成新一轮融资,融资金额近亿元人民币。本轮融资由蓝思科技领投,天津佳益跟投,老股东国投创合、河南资产持续加注。在当前人形机器人赛道竞争日趋激烈的背景下,这笔融资的完成为观察行业技术路线演进和商业化进展提供了新的视角。

▍VLA模型的工程化挑战与解决方案
视觉语言动作(Vision-Language-Action,VLA)模型作为具身智能领域的重要技术方向,在从理论研究向工程应用转化的过程中面临着诸多挑战。核心问题在于:如何在保持模型泛化能力的同时,满足特定任务对精度和稳定性的严格要求。
面对纯 VLA 模型在精细化作业任务中的技术挑战,灵宝 CASBOT与中国科学院自动化研究所合作提出了ConRFT(Consistency-based Reinforced Fine-tuning)方法,通过引入强化学习机制来增强VLA模型的任务执行能力。
ConRFT方法采用两阶段优化策略。离线微调阶段(Cal-ConRFT)将校准Q学习(Cal-QL)与行为克隆(BC)相结合。Cal-QL通过减少时间差分误差并引入正则化项,在有限的离线数据集上训练Q函数。BC损失则通过最小化策略输出动作与演示轨迹动作之间的距离,为模型提供额外的监督约束。这种组合方法使系统能够在仅有20-30条演示数据的条件下完成初步的策略学习。

基于强化学习的真实环境下VLA模型微调方法ConRFT框架
在线微调阶段(HIL-ConRFT)在保留离线阶段演示缓冲区的基础上,使用回放缓冲区存储在线数据,并实施对称采样策略。关键创新在于引入人类干预机制(Human-in-the-Loop)——当机器人出现破坏性行为或陷入局部最优时,人类操作员可以介入并提供纠正措施,这些修正数据被添加到演示缓冲区中,用于后续的策略优化。
根据公开的实验数据,该方法在八项真实场景任务测试中实现了96.3%的平均成功率,相较传统监督微调方法提升144%;平均任务完成步数从56.3步降至30.7步,效率提升约1.9倍。在“穿针引线”等高精度任务中表现尤为突出。这种性能提升对于工业应用具有直接价值——更少的动作步骤意味着更短的生产周期和更高的效率。

八个不同类型的真实场景任务
数据采集策略方面,灵宝CASBOT构建了“三域”体系:真机域(传统的机器人遥操作数据,占比最少)、仿真域(在虚拟环境中生成的训练数据,占比较高)、真人域(通过专用数据手套和眼镜设备采集的人类演示数据)。真人域数据采集的创新之处在于直接捕获人类的自然操作动作,避免了传统遥操作中为确保稳定性而牺牲效率的问题。采集的数据包含双目RGB图像、末端位姿、触觉反馈等多模态信息。
据该公司技术负责人介绍,这种方法能够将原本需要数十秒完成的遥操作动作压缩到接近人类的执行时间(几秒),从而提高了训练数据的质量和采集效率。
▍分层架构设计的技术考量
在系统架构选择上,灵宝CASBOT采用了分层端到端模型技术路线。这种选择是在评估了业内主流的端到端具身大模型、分段决策模型以及示教模仿训练技能模型后做出的。根据其技术文档,分层架构能够结合各种路线的优势,同时规避它们的不足。
这种架构允许系统根据不同场景需求灵活调配计算资源。在工业制造等场景中,系统可以关闭云端大模型调用,仅依靠端侧的具身操作大模型完成任务闭环。这种设计降低了网络依赖,提高了响应速度。而在需要复杂人机交互的商业服务场景中,则可通过Agent框架调用云端的开源大模型资源。

从硬件配置看,CASBOT 02搭载的275TOPS算力芯片主要用于支撑端侧的VLA模型运行和整机运动控制。该公司在部分非关键模块(如HRU)采用了国产芯片RK3588,显示出对供应链安全的考虑。据介绍,这一算力水平不仅满足当前需求,还为未来的OTA升级和功能扩展预留了空间。
这种分层设计不仅是技术选择,也反映了对部署环境的实际考虑。许多工业和矿业场景对数据安全和网络稳定性有严格要求,端侧闭环的能力成为必要条件。同时,这种架构也便于根据客户的具体需求进行功能裁剪或增强,提高了产品的适应性。
在运动控制方面,CASBOT系列采用了结合对抗运动先验和全身控制(WBC)的框架,通过生成对抗模仿学习网络的训练,使模型能够生成高度拟人的运动控制策略。这种方法使得机器人能够根据任务内容展现出行走、跑步、上下坡等多种运动能力,提高了模型的通用性。
▍产品参数优化背后的工程权衡
CASBOT 02相比CASBOT 01的参数变化体现了明确的产品策略调整。身高从179cm调整为163cm,自由度从52个优化为33个,体重从60kg降至55kg,算力从550T调整为275TOPS。这些变化并非简单的成本削减,而是基于实际应用反馈的针对性优化。

根据该公司的说明,通过01产品在多个真实场景的探索和交互,他们发现“相比于‘全能型产品’,用户更容易记住并选择一个把单一功能做到极致,打磨成‘超预期’体验的产品”。这一认知转变推动了产品设计理念的调整。自由度的优化使得控制算法的复杂度降低,提高了系统的稳定性和响应速度,同时也降低了生产成本。
硬件设计的重要改进是模块化架构。通过将外骨骼与内部结构解耦,不仅提升了生产装配效率,更重要的是为不同应用场景的硬件配置提供了灵活性。例如,在矿业场景中,可根据巷道环境选择轮式或履带式底盘;在工业场景中,可根据作业需求配置不同类型的末端执行器。这种模块化设计也便于后续的维护和升级。
人机交互功能的增强基于明确的客户需求。在中关村论坛等活动中,CASBOT 01作为主持人进行了多语言交互展示,获得了良好反响。而在后续的商业服务场景试用中,客户反馈希望机器人“更加拟人化,更加灵动”。为此,CASBOT 02引入了“灵动模式”,使机器人在待机状态下也能展现自然的小动作。同时强化了人脸追踪、声纹识别等功能,实现“专属跟随”和“听声辨人”。
在续航和充电设计上,CASBOT 02采用滑轨式快换电池设计,支持快充、无线充电与自主回充。这种设计不仅方便日常使用,也为长时间连续作业提供了保障。这些细节改进虽然看似微小,但对提升产品的实用性具有重要作用。
▍垂直场景选择的商业逻辑
在商业化策略上,灵宝CASBOT选择了工业制造和矿业能源作为首批主要发力方向。这种选择基于对市场需求和自身能力的综合判断。
工业制造场景的选择基于三个关键因素。第一,需求的刚性——在柔性制造生产线上,存在对泛化作业能力机器人的明确需求。第二,ROI的可量化性——工业客户对投资回报有固定的测算方式,通常要求12-18个月完成成本回收。第三,技术适配性——半结构化场景相比完全非结构化的家庭场景,泛化难度降低,更容易验证技术的有效性。
具体应用案例包括柔性质检和制鞋等场景。在质检应用中,机器人通过模仿学习掌握人类的手眼协同作业模式:利用灵巧手的泛化抓取能力抓起产品,通过双臂双手翻转让相机从多角度检查,然后放回生产线。这种应用充分发挥了具身智能的核心能力。在制鞋场景中,由于需要适应35-45码的不同尺码以及左右脚的差异,传统的编程式工业机器人难以胜任,而具身智能的泛化能力恰好满足了这一需求。
矿业能源场景代表了另一种商业化思路。根据七部委联合印发的《矿山安全发展指导意见》,到2026年底如果不能实现关键岗位的机器人替代,将直接限制相关央企的开采活动。这种政策驱动创造了明确的市场需求。在井下1000-2000米、温度30-40度、存在瓦斯等有害气体的极端环境中,机器人不是效率工具,而是保障安全生产的必需品。

合作模式方面,灵宝CASBOT与合作伙伴采用联合研发方式:公司提供标准化的机器人产品和基础算法,合作伙伴负责防爆改造、资质认证等专业工作。双方在合作协议中会明确约定研发方向和POC(概念验证)订单。这种分工既发挥了各自优势,也通过具体订单体现了合作诚意。
在市场策略上,该公司坚持“小规模量产和交付”原则,2025年计划三条产品线(全尺寸双足、轮式、灵巧手)各完成约百台套的交付。灵宝CASBOT联合创始人兼COO张淼明确表示:“量产背后一定都是带着交付两个字的”,量产的产品都对应明确的商业化需求和应用场景。这种务实的策略避免了盲目扩张带来的资源浪费。
正是基于在工业制造等垂直场景中积累的技术工程化经验与场景需求理解,灵宝 CASBOT 获得蓝思科技领投支持。作为消费电子制造领域龙头企业,蓝思科技关注到其在柔性作业泛化能力、模块化硬件设计等方面的技术特点。此次领投不仅体现了产业资本对其技术落地路径的认可,也为双方后续围绕技术研发与产业应用展开沟通奠定了基础。
▍技术演进路径与产业发展趋势
通过分析灵宝CASBOT的实践,可以观察到人形机器人产业发展的几个重要特征和趋势。

首先,在技术路线上,行业正在从单一技术路径向混合技术方案演进。VLA模型虽然是主流方向,但纯VLA在工程落地时的局限性推动了技术融合。ConRFT方法通过强化学习增强VLA模型的案例表明,根据具体应用需求选择和组合不同技术,比追求某一技术的极致更具实用价值。这种务实的技术选择反映了产业从概念验证向商业应用转型的必然要求。
其次,数据策略的创新正在成为竞争力的重要来源。传统依赖真机遥操作的数据采集方式成本高、效率低,且数据质量受限。灵宝CASBOT的“三域”数据体系,特别是真人域数据采集的创新,不仅降低了成本,更重要的是提高了数据质量。这种方法使得中小企业也能够积累高质量的训练数据,有望改变当前数据资源高度集中的格局。
第三,产品设计理念正在发生根本转变。从追求参数的极致到注重实用性的转变,反映了市场对人形机器人认知的成熟。自由度数量、算力大小等技术指标不再是评价产品的唯一标准,能否有效解决实际问题、投资回报是否合理成为更重要的考量因素。这种转变将推动整个行业向更加理性和务实的方向发展。
第四,商业模式的探索呈现出明显的分化趋势。不同企业根据自身技术特点和资源禀赋选择不同的商业化路径。垂直场景深耕策略的成功,证明了在当前技术条件下,聚焦特定领域、深入理解场景需求是可行的商业化路径。但这并不意味着通用型路线没有价值,随着技术成熟度的提升,不同路径可能会在更高层次上实现融合。
最后,产业生态的重要性日益凸显。单一企业难以完成从基础研究到产品开发再到市场应用的全链条工作。灵宝CASBOT与中科院自动化所的技术合作、与蓝思科技等产业方的商业合作、与矿业央国企的联合研发,都体现了生态协同的价值。这种开放合作的模式有望成为推动产业发展的重要机制。
展望未来,人形机器人产业仍处于早期阶段,技术和商业模式都在快速演进中。但从灵宝CASBOT等企业的实践可以看出,产业正在向着更加务实、更加聚焦应用价值的方向发展。随着更多企业找到适合自己的技术路线和商业模式,人形机器人从概念到大规模应用的进程将不断加速。
(文:机器人大讲堂)