每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

近日,微软研究院与北京大学联合发布的新框架Next-Frame Diffusion(NFD)实现了每秒超过30帧的视频生成速度,并保持高质量画面。相比现有自回归视频生成模型,NFD采用帧内双向注意力和帧间因果依赖机制建模视频,并通过多步迭代和并行采样提高效率。

ICML 2025 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频

蚂蚁和中国人民大学的研究团队提出ViLAMP模型,实现对超长视频的高效处理。ViLAMP通过混合精度策略,在关键帧上保持高精度分析,大幅提升了视频理解效率,并在多个基准测试中超越现有方案。

专注于将图像文档转换为结构化文本SmolDocling

IBM Research 的 SmolDocling-256M-preview 是一个多模态文档处理模型,专注于将图像文档转换为结构化文本,并支持 OCR、代码块识别、数学公式转换和表格/图表解析等。其核心特性包括高效处理和精准元素识别,具备轻量级模型(基于 2.56 亿参数的 Idefics3 架构)以及开源协议。