V-JEPA 2：meta 又发了新视频理解模型

meta 又发了新模型——V-JEPA 2 （Video Joint Embedding Predictive Architecture 2），这是个视频理解模型，能判断视频中正在发生什么并进行一定程度的预测。并且亮点应用是零样本机器人控制（如果用yolo需要针对训练，但是大模型的知识具有迁移性，视觉中出现新东西不用训练也能操作）。根据官方报告，这个模型的技术创新有：

自我监督学习：模型不需要大量标注数据，而是通过”自己教自己”的方式学习
遮挡预测机制：模型通过”填空题”的方式学习 – 遮住视频的某些部分，让模型预测被遮住的内容
抽象表征学习：模型不是简单地记忆像素，而是学习视频的”抽象含义”
世界模型架构：模型构建了对物理世界的内在理解，能够”想象”物体如何运动和互动
高效的迁移能力：模型学会基础的物理理解后，可以快速适应新任务

参考文献：
[1] 模型地址：https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
[2] blog：https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复