迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA

本文首次系统性地研究并提出了高效建模长上下文视频生成的方法,通过重构视频生成任务为逐帧预测,并引入长短时上下文的非对称patchify策略和多层KV Cache机制,实现了高效的长视频训练与长上下文视频生成。

ICLR 2025杰出论文揭晓:中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态

ICLR 2025杰岀论文奖揭晓!3篇杰出论文涵盖安全对齐、语言模型学习动态和编辑等方面的研究成果,强调了当前大型语言模型存在的问题及潜在解决方案。

一文看懂多模态思维链

多模态思维链(MCoT)系统综述发布,介绍了其基本概念、分类法和应用场景,并探讨了当前挑战及未来研究方向。通过推理构建视角、结构化推理视角等六大技术支柱提升模型能力,改变机器人的操作、自动驾驶的安全性、医疗诊断的速度与准确性以及教育的个性化教学等方面。论文链接:https://arxiv.org/pdf/2503.12605