Aether:上海 AI Lab 开源的生成式世界模型,探索三维时空建模与智能决策新境界

在人工智能领域,生成式模型的发展一直是推动技术进步的重要力量。近年来,随着深度学习技术的不断突破,生成式模型在图像、文本和视频生成等领域取得了显著成就。然而,将几何重建与生成式建模深度融合,以实现类似人类的空间推理能力,仍然是一个极具挑战性的问题上海 AI Lab 开源的 Aether 项目,正是为了解决这一挑战而诞生的。Aether 通过创新的三维时空建模技术,为生成式世界模型的研究和应用开辟了新的道路。本文将详细介绍 Aether 的技术原理、主要功能、应用场景以及如何快速上手使用。

一、项目概述

Aether 是上海 AI Lab 开源的一个生成式世界模型,完全基于合成数据训练。它首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视觉规划三大核心能力Aether 能感知环境、理解物体位置和运动关系,并做出智能决策。它在真实世界中展现出强大的零样本泛化能力,能够使用虚拟数据训练完成复杂任务,为具身智能系统提供强大的空间推理和决策支持。Aether 的开源为研究人员和开发者提供了一个强大的工具,用于探索生成式模型在多模态任务中的应用潜力。

二、技术原理

1. 统一多任务框架:Aether 将动态重建、视频预测和动作规划三项任务融合在一个统一的框架中进行优化。通过任务交错的特征学习,实现不同任务之间的协同优化,提升模型的稳定性和鲁棒性。

2. 几何感知建模:引入三维时空建模,构建几何空间提升模型的空间推理能力。Aether 使用海量仿真 RGBD 数据(彩色图像和深度图)进行训练,并开发了一套完整的数据清洗与动态重建流程,标注丰富的动作序列。

3. 相机轨迹作为动作表征:选择相机轨迹作为全局动作的表示方式。在导航任务中,相机轨迹直接对应导航路径;在机器人操作中,手柄相机的运动可以捕捉末端执行器的 6D 运动。

4. 扩散模型与多模态融合:基于预训练的视频扩散模型,用合成 4D 数据进行后训练。Aether 将深度视频转换为尺度不变的归一化视差表示,将相机轨迹编码为与扩散变换器(DiTs)时空框架对齐的尺度不变射线图序列表示。通过动态整合跨任务和跨模态的条件信号,实现多模态信息的融合和协同优化。

5. 零样本泛化能力:Aether 完全在虚拟数据上训练,但能够实现对真实世界的零样本泛化。它通过组合不同的条件输入(如观察帧、目标帧和动作轨迹),结合扩散过程,实现对多种任务的统一建模与生成。

三、主要功能

1. 4D 动态重建:Aether 能够从视频中重建包含时间和空间的三维场景模型,捕捉动态变化。这一功能使得模型能够理解场景中的物体位置、运动轨迹以及它们之间的相互关系。

2. 动作条件视频预测:Aether 可以根据初始观察和动作轨迹预测未来场景的变化。这一功能使得模型能够基于当前的观察和动作指令,预测未来的场景状态。

3. 目标导向视觉规划:Aether 能够根据起始和目标场景生成合理路径,辅助智能系统规划行动路线。这一功能使得模型能够在复杂的环境中找到最优的行动路径,以达到预定的目标。

四、应用场景

1. 机器人导航:在机器人导航中,Aether 可以帮助机器人感知环境,理解物体位置和运动关系,从而规划出最优的导航路径。例如,在家庭环境中,机器人可以避开动态障碍物(如宠物、儿童)并找到通往厨房的路径。

2. 自动驾驶:在自动驾驶中,Aether 可以实时重建道路场景,预测交通动态,帮助自动驾驶车辆做出准确的驾驶决策。例如,模型可以预测前方车辆的运动轨迹,从而提前做出避让或减速的决策。

3. 虚拟现实:在虚拟现实中,Aether 可以生成沉浸式虚拟场景,增强用户体验。例如,模型可以根据用户的动作和视角,实时生成逼真的虚拟环境,提供身临其境的体验。

4. 工业机器人:在工业机器人中,Aether 可以优化机器人操作路径,提高生产效率。例如,模型可以根据当前的任务和目标,生成最优的操

5. 智能监控:在智能监控中,Aether 可以分析监控视频,预测异常行为,帮助监控系统提前发现潜在的安全威胁。例如,模型可以识别异常的人员行为或物体运动,及时发出警报。

五、快速使用

1. 安装环境

推荐使用 Anaconda 创建虚拟环境:

git clone https://github.com/OpenRobotLab/Aether.gitcd Aetherconda create -n aether python=3.10conda activate aetherpip install -r requirements.txt

2. 运行推理示例

4D 重建:

python scripts/demo.py --task reconstruction --video ./assets/example_videos/moviegen.mp4

动作条件视频预测:

python scripts/demo.py --task prediction --image ./assets/example_obs/car.png --raymap_action assets/example_raymaps/raymap_forward_right.npy

目标导向视觉规划:

python scripts/demo.py --task planning --image ./assets/example_obs_goal/01_obs.png --goal ./assets/example_obs_goal/01_goal.png

结果将默认保存在 `./outputs/` 文件夹中。

3. 使用 Gradio 运行交互式 Web 演示

通过以下命令启动 Gradio 演示:

python scripts/demo_gradio.py

六、结语

Aether 作为上海 AI Lab 开源的生成式世界模型,通过创新的三维时空建模和多模态融合技术,为生成式模型的研究和应用带来了新的突破。它不仅在虚拟数据上表现出色,还能够实现对真实世界的零样本泛化,展示了其强大的适应性和泛化能力。Aether 的开源为研究人员和开发者提供了一个强大的工具,用于探索生成式模型在多模态任务中的应用潜力。

七、项目地址

项目官网:https://aether-world.github.io/

开源仓库:https://github.com/OpenRobotLab/Aether

模型地址:https://huggingface.co/AetherWorldModel/AetherV1

技术论文:https://arxiv.org/pdf/2503.18945

在线体验:https://huggingface.co/spaces/AmberHeart/AetherV1


(文:小兵的AI视界)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往