人形机器人大模型企业「智在无界」完成数千万元融资



资金将用于加大核心技术研发投入,加速现有模型迭代与产业化验证,以持续提升技术壁垒与产品竞争力。

作者|机器人开放社区


机器人开放社区获悉,北京智在无界科技有限公司(以下简称“智在无界”)宣布完成数千万元融资,由联想之星领投,智谱Z基金、燕缘创投、彬复资本跟投,势能资本担任独家财务顾问。资金将用于加大核心技术研发投入,加速现有模型迭代与产业化验证,以持续提升技术壁垒与产品竞争力。

智在无界成立于2025年,专注人形机器人通用大模型的研发与应用,首个面向人形机器人的通用智能体。提出模块化的端到端架构,将具身大模型与人形机器人的运动、导航、灵巧操作无缝集成,使机器人能够像人类一样进行复杂推理,在物理世界中穿梭,并自主完成长程任务。更重要的是,实现这些功能,仅需要互联网视频+少量真机数据。

创始人兼CEO卢宗青毕业于东南大学,获得学士和硕士学位;是北京大学计算机学院的长聘副教授。2014年在新加坡南洋理工大学获得计算机博士学位,2014 至 2017 年在美国宾州州立大学从事博士后研究。 2017 年 9 月加入北京大学,是 “决策智能” 课题组负责人,曾担任北京大学计算机系数字媒体研究所研究员(“博雅青年学者”),现为北京大学人工智能研究院研究员。 主要研究强化学习、多模态大模型、通用智能体。 

面向人形机器人的操作和运动两大核心能力,智在无界将其通用大模型系统分为具身多模态大语言模型、多模态姿态大模型和运动模型三层,并搭建了自学习具身智能体框架。

据了解,智在无界提出了多模态姿态模型,通过互联网上丰富的视频资源,包括如行走、舞蹈等人体全身运动,抓取物体、工具使用等第一人称视角的手部精细操作数据,能够为模型提供丰富且多元的动作样本。通过这些视频-动作数据,模型可学习到各种动作在不同环境下的表现形式,能依据实时的环境信息与任务要求,实现具有泛化性的端到端运动操作。

在具身多模态大语言模型方面,智在无界自主研发了Video Tokenizer技术,其强调时空环境的理解与推理能力,尤其是针对第一人称视角视频内容的解析。通过将连续视频流解构为兼具时间序列与空间语义的视觉token单元,使得该模型能精准捕捉动作的时序逻辑,比如伸手、抬升手臂到抓起物体的连贯过程,并基于物体方位、肢体相对位置等空间特征理解物理世界和人类行为。

值得关注的是,智在无界提出Retriever-Actor-Critic框架,通过对真实交互数据的RAG(检索增强生成)与强化学习,二者的协同应用,不仅能提升模型的响应准确性与用户体验,形成“数据收集-模型优化-效果反馈”的闭环,使机器人具备了动态适应多变场景的能力,为其规模化落地提供了可行的技术路径。

截止当前,智在无界正同头部机器人厂商推进场景验证合作,以加快具身智能在更多领域的应用落地。




(文:机器人开放社区)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往