微软研究院开源了一个实时交互世界模型——MineWorld。
MineWorld以Transformer 为核心,并结合大热门沙盒游戏《我的世界》开发而成。这是因为游戏是评估、训练Agent在感知、决策、预测,以及在动态复杂环境的综合处理能力的最佳场景之一。
根据测试数据显示,MineWorld在多方面远超知名世界模型Oasis。视频质量上,3亿参数的MineWorld的FVD值246低于Oasis的377,SSIM值0.38高于Oasis的0.36。
可控性方面,MineWorld的3亿和7亿参数模型F1分数达0.70,12亿参数模型为0.73,远高于Oasis的0.41;相机控制L1损失也更低。推理速度上,MineWorld每秒生成5.91帧,远超Oasis的2.58帧。

开源地址:https://github.com/microsoft/MineWorld
MineWorld架构
MineWorld的架构主要由Transformer 解码器、视觉标记器、动作标记器以及并行解码算法4大块组成。
Transformer解码器是 MineWorld 的核心模块,主要负责根据输入的token序列生成后续的游戏场景。研究人员使用了LLaMA架构来构建 Transformer 解码器。

在训练过程中,Transformer 解码器将视觉token和动作token交替拼接成一个长序列,并以自回归的方式进行训练。模型在每一步都会根据之前的所有token来预测下一个token。这种训练方式使得模型能够同时学习游戏状态之间的条件关系以及动作与状态之间的关联。
在推理阶段,Transformer 解码器可以根据输入的当前游戏状态和动作,生成后续的游戏场景。此外,由于模型在训练时同时接触到了动作和状态的token,具备了作为策略模型的潜力,即能够根据当前状态预测合理的动作。
视觉标记器的作用是将游戏场景中的图像数据转化为离散的token。研究人员使用了一个预训练的 VQ-VAE 模型,并在《我的世界》的数据集上进行了微调,以适应游戏场景的特定特征。
该视觉标记器将每帧图像的空间分辨率从原始的 360×640 压缩到 224×384,并进一步将其划分为 14×24 的图像块,每个图像块对应一个离散token。

最终,每个游戏场景被表示为一个长度为 336 的标记序列。这种压缩方式不仅大大减少了计算量,还保留了图像的主要特征,为后续的模型训练提供了高效的数据表示。
动作标记器的作用是将玩家的操作(如键盘按键和鼠标移动)转化为离散的token。在《我的世界》中,玩家的动作包括连续的鼠标移动和离散的键盘操作。

为了处理这些不同类型的动作研究人员使用了两种方法:连续动作的离散化,对于鼠标控制的视角旋转,研究人员将其量化为离散的角度token,将 X 轴和 Y 轴的旋转角度分别划分为11个区间,每个区间对应一个离散token。
离散动作的分类,对于键盘操作,研究者根据动作之间的互斥关系(如前进和后退不能同时发生),将其分为7个互斥类别,每个类别对应一个独特的token。

为了实现高效的实时交互,研究人员提出了一种新颖的—并行解码算法。传统的自回归解码方法在生成图像或视频时,通常是逐个标记地进行预测,这种方式虽然能够保证生成质量,但在处理高分辨率图像或长视频时效率较低。
为了提高解码速度,MineWorld 的并行解码算法利用了图像标记之间的空间冗余性。在生成一个标记后,会同时预测与其相邻的行和列中的标记。特别是在处理高分辨率图像时,生成效率提升非常明显。
MineWorld对于智能体的好处
在复杂环境下,智能体面临大量视觉和行为信息,MineWorld 将游戏场景和动作转化为离散token,可助力智能体理解环境状态和自身行为,学习《我的世界》中的物理知识,例如,物体交互方式和环境变化规律等,使智能体在生成后续游戏状态时能准确渲染户外环境、木材细节及爆炸效果等,深入且准确地感知环境,为决策奠定坚实基础。
作为世界模型,MineWorld 可依据过去观察和当前动作预测未来游戏状态,智能体借此评估不同行动后果,选择最优策略,例如,在游戏中根据预测状态决定前进、后退等动作以达成目标。
MineWorld还在训练过程中学习到的状态与动作关系,帮助智能体更好理解动作效果,精准执行决策,提高行动成功率。
在与环境交互时,实时性十分关键。MineWorld 通过创新的并行解码算法,实现每秒生成 4 – 7 帧的速度,快速响应玩家动作输入。这使得智能体在与玩家或其他智能体交互时,能及时获取最新环境信息并做出相应反应。
MineWorld具备同时预测游戏状态和动作的能力,可作为独立游戏让智能体自主游戏。智能体在给定初始游戏状态和动作后,通过迭代预测未来状态和动作持续游戏,在这一过程中不断学习和优化游戏策略,根据不同游戏场景和目标自主探索最佳行动路径和策略组合,为其在复杂游戏环境及类似场景的应用提供强大支持。
(文:AIGC开放社区)