人形机器人大模型企业「智在无界」完成数千万元融资

“

资金将用于加大核心技术研发投入，加速现有模型迭代与产业化验证，以持续提升技术壁垒与产品竞争力。

作者｜机器人开放社区

机器人开放社区获悉，北京智在无界科技有限公司（以下简称“智在无界”）宣布完成数千万元融资，由联想之星领投，智谱Z基金、燕缘创投、彬复资本跟投，势能资本担任独家财务顾问。资金将用于加大核心技术研发投入，加速现有模型迭代与产业化验证，以持续提升技术壁垒与产品竞争力。

智在无界成立于2025年，专注人形机器人通用大模型的研发与应用，是首个面向人形机器人的通用智能体。提出模块化的端到端架构，将具身大模型与人形机器人的运动、导航、灵巧操作无缝集成，使机器人能够像人类一样进行复杂推理，在物理世界中穿梭，并自主完成长程任务。更重要的是，实现这些功能，仅需要互联网视频+少量真机数据。

创始人兼CEO卢宗青毕业于东南大学，获得学士和硕士学位；是北京大学计算机学院的长聘副教授。2014年在新加坡南洋理工大学获得计算机博士学位，2014 至 2017 年在美国宾州州立大学从事博士后研究。 2017 年 9 月加入北京大学，是 “决策智能” 课题组负责人，曾担任北京大学计算机系数字媒体研究所研究员（“博雅青年学者”），现为北京大学人工智能研究院研究员。主要研究强化学习、多模态大模型、通用智能体。

面向人形机器人的操作和运动两大核心能力，智在无界将其通用大模型系统分为具身多模态大语言模型、多模态姿态大模型和运动模型三层，并搭建了自学习具身智能体框架。

据了解，智在无界提出了多模态姿态模型，通过互联网上丰富的视频资源，包括如行走、舞蹈等人体全身运动，抓取物体、工具使用等第一人称视角的手部精细操作数据，能够为模型提供丰富且多元的动作样本。通过这些视频-动作数据，模型可学习到各种动作在不同环境下的表现形式，能依据实时的环境信息与任务要求，实现具有泛化性的端到端运动操作。

在具身多模态大语言模型方面，智在无界自主研发了Video Tokenizer技术，其强调时空环境的理解与推理能力，尤其是针对第一人称视角视频内容的解析。通过将连续视频流解构为兼具时间序列与空间语义的视觉token单元，使得该模型能精准捕捉动作的时序逻辑，比如伸手、抬升手臂到抓起物体的连贯过程，并基于物体方位、肢体相对位置等空间特征理解物理世界和人类行为。

值得关注的是，智在无界提出Retriever-Actor-Critic框架，通过对真实交互数据的RAG（检索增强生成）与强化学习，二者的协同应用，不仅能提升模型的响应准确性与用户体验，形成“数据收集-模型优化-效果反馈”的闭环，使机器人具备了动态适应多变场景的能力，为其规模化落地提供了可行的技术路径。

截止当前，智在无界正同头部机器人厂商推进场景验证合作，以加快具身智能在更多领域的应用落地。

（文：机器人开放社区）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

发表评论 取消回复

发表评论取消回复