微软研究院归档

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

2025年6月12日11时作者量子位

近日，微软研究院与北京大学联合发布的新框架Next-Frame Diffusion(NFD)实现了每秒超过30帧的视频生成速度，并保持高质量画面。相比现有自回归视频生成模型，NFD采用帧内双向注意力和帧间因果依赖机制建模视频，并通过多步迭代和并行采样提高效率。

One RL to See Them All？一个强化学习统一视觉-语言任务！

2025年5月27日16时作者机器之心

理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有

微软开源实时交互模型：提升Agent动态复杂处理能力

2025年4月19日8时作者 AIGC开放社区

微软研究院开源了实时交互世界模型MineWorld，以Transformer为核心结合《我的世界》。MineWorld参数量少于Oasis，在多方面表现更优，包括视频质量、可控性和推理速度等方面。MineWorld架构由Transformer解码器、视觉标记器和动作标记器组成，实现高效并行解码算法提高生成效率。