杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

今天凌晨,全球社交巨头Meta在官网开源了一个世界大模型V-JEPA 2

与第一代相比,V-JEPA 2使用了100万视频+100万图片超大规模训练数据集,可以让AI Agent像人类那样理解真实的物理世界,为智能体打造一个“超级大脑”自主学会观察、规划到执行全自动化能力。

值得一提的是,图灵奖获得者、Meta首席科学家杨立昆Yann LeCun)参与了该模型的开发,这在Meta开源的众多大模型中很罕见。

开源地址:https://github.com/facebookresearch/vjepa2?tab=readme-ov-file

对于这个新模型杨立昆还特意在今天凌晨1点发文推荐了一波,看来是相当的满意。

网友表示,感谢老杨带来的新研究。

太棒了!我一直都在热切期待这个成果。请问对于这种架构,scaling laws仍然适用吗?如果适用的话,是否有计划开发更大规模的模型?

我很期待尝试 V-JEPA-v2 用于零样本物理推理和机器人规划。很好奇它在陌生场景和微妙因果事件中的泛化能力如何。非常期待测试它在实时预测任务中的速度和效率!

世界模型实际上受到人类如何形成周围环境心理地图的启发,它们是迈向真正具身人工智能的一步。

V-JEPA 2的核心架构是一个自监督学习框架,通过互联网规模的视频数据来训练模型,使其能够学习到视频中的动态和静态信息。预训练阶段使用了超过100万小时的视频和100万张图像,这些数据涵盖了各种动作和场景。预训练的目标是让模型能够通过观察学习到世界的背景知识,而无需依赖于大量的标注数据。

在预训练阶段使用了“掩码去噪”, 将视频片段分割成一系列的管状块,每个管状块包含了时间序列上的连续帧。然后,模型通过编码器处理这些管状块,并通过预测器来预测被掩盖部分的表示。这种训练方式不仅让模型能够学习到视频中的运动信息,还能捕捉到场景中的静态特征。

为了提高预训练的效率和效果,V-JEPA 2将模型的参数从300M扩展到1B参数,这使得模型能够学习到更复杂的特征。训练时间从90K迭代扩展到252K迭代,这使得模型能够更充分地利用大规模数据。

此外,输入分辨率从256×256提高到384×384,视频长度从16帧扩展到64帧,这些改进都显著提升了模型的性能。

在预训练阶段结束后,V-JEPA 2进一步扩展为一个动作条件的世界模型V-JEPA 2-AC,用于机器人规划任务。这一模块的目标是让模型能够根据动作和状态预测未来的视频帧,从而为机器人提供规划能力。

V-JEPA 2-AC的训练使用了来自Droid数据集的62小时未标记机器人视频数据。这些数据包含了机器人的动作和状态信息,但没有明确的奖励信号。V-JEPA 2-AC通过一个自回归的预测器来学习这些动作的效果,预测器使用了一个块因果注意力机制,能够根据当前的动作和状态预测未来的视频帧表示。

V-JEPA 2-AC的预测器是一个300M参数的Transformer网络,它能够自回归地预测未来视频帧的表示。在训练过程中,模型不仅使用了教师强制(teacher-forcing)损失,还使用了rollout损失来提高模型在推理时的自回归能力。这种训练方式使得V-JEPA 2-AC能够在给定子目标的情况下,通过规划实现零样本的机器人任务执行。

在实际部署中,V-JEPA 2-AC能够通过模型预测控制来规划机器人的动作。具体来说,模型会在每个时间步规划一个动作序列,然后执行第一个动作,观察新的状态,并重复这一过程。这种规划方式类似于人类在执行任务时的视觉反馈控制。

在实验中,V-JEPA 2-AC被部署在两个不同实验室中的Franka机器人手臂上,这些实验室的环境并未出现在训练数据中。V-JEPA 2-AC能够通过规划实现零样本的抓取和放置任务,而无需在这些环境中收集任何数据,也无需进行特定于任务的训练或奖励。

这一结果表明,V-JEPA 2-AC能够有效地将从互联网规模数据中学习到的知识应用于实际的机器人任务中。

此外,V-JEPA 2还展示了其在视频问答任务上的能力。通过与大模型对齐,V-JEPA 2能够处理视频问答任务,这需要模型能够理解视频内容并用自然语言回答问题。V-JEPA 2的视频问答能力通过一个多模态大模型实现,该模型使用V-JEPA 2作为视觉编码器,并将视觉特征与语言模型的输入对齐。

在视频问答任务中,V-JEPA 2的性能在多个基准测试中达到了新的高度。例如,在PerceptionTest上,它达到了84.0%的准确率;在TempCompass上,达到了76.9%的多选准确率。这些成绩证明了V-JEPA 2在结合视觉和语言理解方面的强大能力。

(文:AIGC开放社区)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往