Meta发布V‑JEPA 2:无需标注,让AI像人类一样看世界、推理、行动
Meta发布V-JEPA 2模型,通过学习超过一百万小时的原始视频建立直觉世界模型,无需人工标注帮助AI Agents理解物理常识并规划行动。该模型采用联合嵌入预测架构训练,在视频上进行自监督学习,能处理多视角短视频,并具备强大的视觉空间下自回归规划能力。
Meta发布V-JEPA 2模型,通过学习超过一百万小时的原始视频建立直觉世界模型,无需人工标注帮助AI Agents理解物理常识并规划行动。该模型采用联合嵌入预测架构训练,在视频上进行自监督学习,能处理多视角短视频,并具备强大的视觉空间下自回归规划能力。