迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源
本文由 NUS ShowLab 指导完成,首次系统性研究长上下文视频生成。提出帧自回归模型FAR,有效解决长视频训练计算挑战,显著提升长时序一致性。
本文由 NUS ShowLab 指导完成,首次系统性研究长上下文视频生成。提出帧自回归模型FAR,有效解决长视频训练计算挑战,显著提升长时序一致性。
潞晨科技创始人尤洋博士介绍了公司开发的视频生成模型VideoOcean,并提出视频大模型应实现精细化文本控制、任意机位/角度以及角色一致性等目标,预计3年后将迎来GPT-3.5级别的突破。