
“
作者|机器人开放社区
智在无界成立于2025年,专注人形机器人通用大模型的研发与应用,是首个面向人形机器人的通用智能体。提出模块化的端到端架构,将具身大模型与人形机器人的运动、导航、灵巧操作无缝集成,使机器人能够像人类一样进行复杂推理,在物理世界中穿梭,并自主完成长程任务。更重要的是,实现这些功能,仅需要互联网视频+少量真机数据。
创始人兼CEO卢宗青毕业于东南大学,获得学士和硕士学位;是北京大学计算机学院的长聘副教授。2014年在新加坡南洋理工大学获得计算机博士学位,2014 至 2017 年在美国宾州州立大学从事博士后研究。 2017 年 9 月加入北京大学,是 “决策智能” 课题组负责人,曾担任北京大学计算机系数字媒体研究所研究员(“博雅青年学者”),现为北京大学人工智能研究院研究员。 主要研究强化学习、多模态大模型、通用智能体。
面向人形机器人的操作和运动两大核心能力,智在无界将其通用大模型系统分为具身多模态大语言模型、多模态姿态大模型和运动模型三层,并搭建了自学习具身智能体框架。
据了解,智在无界提出了多模态姿态模型,通过互联网上丰富的视频资源,包括如行走、舞蹈等人体全身运动,抓取物体、工具使用等第一人称视角的手部精细操作数据,能够为模型提供丰富且多元的动作样本。通过这些视频-动作数据,模型可学习到各种动作在不同环境下的表现形式,能依据实时的环境信息与任务要求,实现具有泛化性的端到端运动操作。
在具身多模态大语言模型方面,智在无界自主研发了Video Tokenizer技术,其强调时空环境的理解与推理能力,尤其是针对第一人称视角视频内容的解析。通过将连续视频流解构为兼具时间序列与空间语义的视觉token单元,使得该模型能精准捕捉动作的时序逻辑,比如伸手、抬升手臂到抓起物体的连贯过程,并基于物体方位、肢体相对位置等空间特征理解物理世界和人类行为。
值得关注的是,智在无界提出Retriever-Actor-Critic框架,通过对真实交互数据的RAG(检索增强生成)与强化学习,二者的协同应用,不仅能提升模型的响应准确性与用户体验,形成“数据收集-模型优化-效果反馈”的闭环,使机器人具备了动态适应多变场景的能力,为其规模化落地提供了可行的技术路径。
截止当前,智在无界正同头部机器人厂商推进场景验证合作,以加快具身智能在更多领域的应用落地。
(文:机器人开放社区)