小扎砸 9 位数挖 AI 大神、杨立昆发布世界模型,被群嘲的开源旧王要反击了

Llama 4 的折戟沉沙没有让 Meta 知难而退,反而坚定了 All In AI 的决心。
最近,创始人扎克伯格亲自操刀组建「超级智能」团队,重金投资 Scale AI、以及砸 9 位数挖角 Google、OpenAI 的顶级科学家,也因此抢占了这几天的国际头版头条。
就在今天凌晨,Meta 也开源了最新的重量级模型——V-JEPA 2。
不同于市面上的写作或聊天类 AI,V-JEPA 2 的目标是让 AI 能够看懂世界、具备物理推理能力,并在完全陌生的环境中自主完成一系列实际操作任务。比如识别一个没见过的物体,走进厨房,准确地把它放到目标位置上,全程无需手把手训练。
图灵奖得主、Meta 首席科学家 Yann Lecun 也亲自出镜,为 V-JEPA 2 背书,强调让机器理解物理规则的重要性,认为世界模型能够拥有像人类一样理解世界的常识,不靠海量试错,也能在真实物理世界中行动自如。
V-JEPA 2:现实世界的操作系统,正在加载中
过去两年,关于 AI 未来的发展路径,业界说法众多,有主张 AGI、有指向 ASI,也有 Yann Lecun 所提出的 AMI。
所谓 AMI 强调 AI 不应仅依赖语言处理能力,需要具备对现实世界的抽象建模能力,通过观察多模态数据(如视频、音频)形成内部世界模型,从而理解物理规律。
也就是说,要实现 AMI 就不能只靠「嘴」,还得有观察世界、理解变化、做出决策的能力,而 V-JEPA 2 正是 Meta 研究团队在这个方向上押下的筹码。
它的基础,是 Meta 在 2022 年提出的 JEPA 架构,也就是联合嵌入预测架构,旨在通过预测抽象表示而非生成像素或文本,提升模型对物理世界的理解能力。早期的研究表明,JEPA 在图像、3D 点云(3D Point Cloud)等模态上表现不俗。
据介绍,V-JEPA 2 拥有 12 亿参数,而它最核心的特点还是围绕「预测」,不只是被动识别视频画面中的物体和动作,更能基于画面推测接下来会发生什么。
举例而言,当一个球被抛到空中,它会因为重力的作用落下,而不会飘在半空、突然掉头,或者变成一个苹果。这种物理直觉,显然不是靠堆数据砸出来的,而是更人类早在学会说话之前就凭借观察建立起的「世界常识」。
一贯抨击 LLM 路线的 Yann Lecun 曾锐评当前的 LLM 不如猫。在他看来,LLM 通过预测下一次 token 生成内容,擅长处理语言符号,但终究无法跨越到对物理世界的真实理解。
可以说,现实世界的物理直觉是人类日常行为的底层支撑逻辑,比如穿过一条人流密集的街道,我们知道该往哪里躲避行人;做饭时,我们知道锅什么时候会烧干。这种内在世界模型就像一个模拟器,帮助我们预测假设行为的结果,并做出最佳决策。
Meta 试图用 AI 构建出一种「模拟器」,也就是真正行动前能先在脑中推演一遍结果再行动,V-JEPA 2 是实现这一目标的关键一步,可简单划分为三个步骤:

理解:能从观察中识别物体、动作、运动等信息;

预测:能够预判世界如何演变,或在某个动作发生后世界如何变化;

规划:基于预测能力,制定实现特定目标的行动序列。
基于看懂、想明白、再动手这一整套的闭环,V-JEPA 2 的训练流程分为两阶段:
第一阶段是无动作预训练。
Meta 研究团队使用超过 100 万小时的视频和 100 万张图像,用自监督形式训练编码器(Encoder:输入原始视频,输出代表世界状态语义信息的嵌入;)和预测器(Predictor:基于视频嵌入和额外上下文,生成未来状态的预测嵌入)。
不需要人工打标签,模型就能学会图像间的时序关系,物理的交互逻辑和物理约束。在这个阶段,V-JEPA 2 就已经展现出强大的感知和理解能力:

在 Something-Something v2 动作识别任务中,V-JEPA 2 通过轻量注意力机制的解读器达到了卓越表现;

在 Epic-Kitchens-100 的 1 秒未来动作预测任务中刷新纪录;

联合语言模型后,在视频问答基准如 Perception Test 和 TempCompass 上也表现领先。
与李飞飞团队更注重认知层的世界建模有所不同,V-JEPA 2 更进一步强调实际落地的能力。
在第二阶段里,Meta 研究团队开始加入长达 62 小时的机器人数据,也就是实际动作的执行指令,训练出可用于规划和控制的模型。
那效果如何呢?V-JEPA 2 在开源 DROID 数据集上训练后,直接在实验室机器人上部署,成功执行如抓取、搬运等基础任务,展现了在新环境和新物体上进行零样本机器人规划的能力。
具体来看,对于短期任务,比如抓取、搬运等动作,V-JEPA 2 通过编码当前状态和目标状态的图像,预测多个候选动作,然后选择最优路径执行。
对于长期任务,在新环境中完成抓取、搬运到指定位置这种多步操作时,成功率会达到 65%–80%。系统会设置一组视觉子目标,模型按顺序引导机器人完成任务,整个过程有点像人类在模仿示范时一步步学习。
用更通俗的话说,世界模型就相当于现实世界中的「操作系统」,从屏幕走到现实世界,而 V-JEPA 2 也是一块关键的拼图。
看起来很聪明的 AI,其实连「物理常识」都不懂?
此外,Meta 还发布了三项新基准测试:IntPhys 2、Minimal Video Pairs、CausalVQA,用于评估模型对视频中物理世界的理解与推理能力。
IntPhys 2 比较好理解,有点像是我们日常生活中的找茬游戏,只不过,它考察的是模型对物理常识的理解。
Meta 团队用游戏引擎生成成对视频,前半段完全一致,后半段其中一个 突然出现违反物理规律的事件,比如物体悬空,穿墙、瞬移,而模型则需要判断哪段视频不合理。
这对人类来说,可能手拿把掐,但对于现阶段的 AI,面对基础物理尝试仍是一脸懵,也很难准确判断。
看起来懂得一切的模型,究竟是靠真正理解了物理因果,还是仅仅在靠图像线索和关键词蒙对了?这就是第二套基准测试 Minimal Video Pairs(MVPBench)想要搞清楚的目标。
这套测试的核心思路非常「反套路」。传统的视频问答模型,很多时候并不是看懂了视频发生了什么,而是利用训练数据中的模板、风格和关键词去猜答案。
举个例子,如果看到 A 推了 B,它就默认 B 会动;看到一个球飘起来了,它可能会觉得这是特效。基于此,MVPBench 专门设计了「一对双胞胎视频」,视觉上几乎一模一样,只在某个关键细节上做出最小化的改动,比如某个动作发生的先后顺序、物体的微小位置偏移、运动轨迹的结果变化。
模型必须分别回答这两个视频的同一个问题,且必须两个都答对才算得分。这就意味着,它不能靠模糊的图像匹配或者文本关联来「糊弄过去」,它必须真的搞懂:谁先动了?是谁推了谁?动作发生之后的后果,合不合常理?
这套机制从根源上卡死了模型的「投机」路径。
CausalVQA 则是一个专门用来评估 AI 模型是否能理解视频中事件之间的因果关系的测试集。评估模型对物理因果关系的理解,包括反事实、预判和规划三个步骤。
反事实比较好理解,比如问模型:「如果这个杯子没有掉下来,会发生什么?」模型必须理解原始事件,然后基于没掉这个假设,推理出新的可能结局。
预判则需要模型必须根据视频当前的状态,判断即将发生的动作或结果,比如问现在水壶正在烧水,接下来会发生什么?这类问题要求模型能感知「因」并预测「果」。
而在目标规划上,模型需要倒推实现路径,规划出达到目标所需的具体步骤,某种程度上,这也是通向 AI Agent 的关键能力之一。
在发布基于视频训练的世界模型 V-JEPA 2 后,Meta 还将打造具备更强感知与规划能力的高级机器智能系统。
据 Meta 团队透露,当前 V-JEPA 2 只在单一时间尺度上学习和预测,未来将开发多时间尺度的分层 JEPA 模型,以支持诸如「洗碗」或「烘焙」这样需分步骤执行的复杂任务。
另外,Meta 团队还将发展多模态 JEPA 模型,结合视觉、听觉和触觉等多种感知进行预测。
要想真正让 AI 从大脑走向身体,光靠大模型堆词汇不够,得先学会物理世界里的「因果律」。方向明确的 V-JEPA 2 虽然离真正的通用行动智能还有距离,但在不断迭代和面对更多不可控变量的过程中一步步靠近答案。
附官网地址:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

(文:APPSO)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往