跳至内容
在 2025 世界人工智能大会(WAIC)现场,腾讯正式发布并开源了「混元 3D 世界模型 1.0」。
什么是世界模型,它的能力听起来颇具革命性,只需输入一句话或一张图,就能在几分钟内生成一个完整、可 360° 沉浸式漫游的 3D 世界。
这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。
用户可以用一句自然语言描述,快速生成一个360度、可交互、可导出的 3D 场景,并导入游戏、仿真或视觉引擎中使用。
与此同时,腾讯混元还宣布了一系列后续开源计划,包括多模态理解模型、游戏视觉模型,以及适用于边缘设备的端侧大语言模型(0.5B、1.8B、4B、7B),覆盖从 3D 世界生成到小模型部署的完整生态链条。
这一次,腾讯不仅把 3D 内容生成从「生成一个物体」升级到「生成一个世界」,还希望以开源的方式,撬动整个 3D AIGC 创作生态。
混元 3D 世界模型 1.0 是腾讯混元大模型体系下的最新成果,它不再局限于生成单个 3D 物体,而是首次支持完整三维世界的生成。这种「世界级别」的生成能力,主要体现在下面几个方面。
混元模型可基于一句文本描述或一张图像输入,生成一个 360 度沉浸式的三维场景。例如,你只需输入「一个破旧的加油站,夜晚下着雨,远处有霓虹灯」,它就能构建出加油站主体、环境、天空光照、闪电等元素构成的完整空间。
用户可在其中进行 360° 视角切换、自由环视,视觉体验接近 VR 世界,且支持导出为全景贴图用于虚拟展示。
除了能看,还能动。混元世界模型支持构建「可行走」的场景地图。生成的世界不仅是封闭空间和固定视角,也支持在场景中自由漫游,体验类似游戏或虚拟现实的交互感。
通过 WASD 键控制角色走动、鼠标拖动切换视角,在模型生成的三维空间中自由探索,几乎可视为一座「即生成、即漫游」的虚拟世界。
腾讯自研的层次化场景表征算法使得前景、中景、远景分层生成。不仅生成视觉效果逼真的世界场景,生成的每一部分,即场景内的元素都可以被独立编辑或物理仿真。
可加载至 Unreal Engine(UE)、Blender、Unity 等引擎进行物理仿真与动画植入。
此外,模型输出为标准 mesh 文件,符合行业通用规范,可直接被用于游戏开发、影视特效制作、教育仿真、工业训练等场景。
与全球领先的开源模型相比,混元 3D 世界模型 1.0 在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前 SOTA 的开源模型。
这一模型今天正式发布并开源,用户既可在官网使用,也可在 Hugging Face 上部署模型本地运行。腾讯强调,这是首个支持物理仿真、CG 管线可用的开源世界模型。
2D 与 3D 结合,一条更聪明的「世界生成」路径
创造一个既宏大又真实,既稳定又富于变化的 3D 世界,技术难度极高。目前,行业内主要有两条技术路线:
纯 3D 生成:优点是空间结构稳定,但受限于高质量 3D 数据的稀缺,生成的多样性和创造力不足。
纯 2D 视频生成(如 Google 基础世界模型 Genie):优点是交互和动态效果丰富,但缺乏三维空间的稳定性约束。你往前走再回头,场景可能已经「面目全非」,无法构建一个逻辑自洽的世界。
腾讯混元团队选择了一条更聪明、也更复杂的「2D+3D 结合」的混合路线,取长补短。
前景物体:使用纯 3D 生成,保证了物体的精细度和交互的真实性。你可以像在真实世界里一样 360 度无死角地观察一个桌子。
中景环境:使用 2.5D 的方式(多视角补齐)来构建,平衡了效果和生成效率。
远景(如天空):则直接使用 2D 生成,以极低的成本丰富了世界的层次感。
「我们对前景物体用 3D 的方式做,中景用 2.5D,远景用 2D。这样就兼顾了交互性和生成的多样性。」腾讯混元 3D 负责人郭春超在媒体采访中解释道。
这种分层生成的策略,叫做「语意层次化 3D 场景表征及生成算法」,该算法将复杂 3D 世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离。最终让混元世界模型在保证空间稳定性的同时,也拥有了由 2D 大模型带来的丰富想象力。
这样一个「世界生成器」究竟能用在何处?它的出现又将如何改变行业?
一个中世纪小镇的广场,适合第三人称 RPG 游戏使用
对于游戏开发者而言,这是前所未有的生产力革命。 传统的游戏场景搭建,需要建模师耗费数周甚至数月的时间手动完成。现在,只需一句指令,就能快速生成一个高质量的场景原型,用于前期的玩法验证。
这能极大地缩短开发周期,降低试错成本。同时,模型生成的各种道具、建筑也能作为基础素材,大大提升资产生产效率。
对于普通 3D 爱好者和内容创作者,它则彻底拉低了创作的门槛。 你不需要懂复杂的三维建模软件,也能创造属于自己的虚拟世界,并将其导入到 Vision Pro 等设备中沉浸式体验。
而从更宏大的视角看,世界模型是通向具身智能和通用人工智能(AGI)的关键路径。无论是自动驾驶汽车,还是未来的家庭服务机器人,都需要在一个模拟的「世界」中进行大量的训练,去理解物理规律,学习如何与环境交互。
郭春超也坦言,目前世界模型在具身智能领域的应用还处于非常初级的阶段,但其潜力是巨大的。相比于约束条件更多、场景相对单一的自动驾驶,具身智能需要面对的环境(如室内、港口、咖啡厅)要复杂得多,这正是世界模型需要攻克的难题。
从发布之初,腾讯就宣布将混元世界模型 1.0 开源。这在行业内是相当罕见的,尤其是对于这样一个具备核心竞争力的模型。
对此,腾讯混元 3D 负责人郭春超在与媒体交流时表示,开源的核心目的是与社区共建,加速技术迭代。在大模型领域,如果只是单兵作战,是很难把一个事情给做大的。
在 WAIC 上,腾讯还表示,在LMArena Vision榜单拿下国内第一的多模态理解模型混元-large-vision,以及专为游戏场景优化的交互式游戏视频生成框架混元GameCraft等也将于近期对外开源
通过开源,腾讯不仅能为广大开发者和企业提供强大的工具,也能从社区获得宝贵的反馈,发现模型的问题和新的应用方向,形成一个正向循环的生态。
从最初的 3D 物体生成,到如今的 3D 世界生成,再到未来对「世界」的理解和交互,腾讯混元正在一步一个脚印地探索 AIGC 的终极形态。
虽然距离真正创造出电影《头号玩家》中那个无限细节、无限可能的「绿洲」还很遥远,但混元世界模型的发布,无疑让我们看到了一个激动人心的开端:一个任何人都能创造、拥有和分享自己虚拟世界的时代,正在加速到来。
WAIC 2025 APPSO 在现场,欢迎加入社群一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
(文:APPSO)