机器之心编辑部
AI 不允许有人不会搭乐高。
近日,CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。
这款大模型有多强呢?比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。

如果你觉得乐高沙发太简单,可以继续上难度,让它生成一个复杂点的书架,只见不同大小的积木拼拼凑凑,乐高书架就完工了,整个流程像不像你在拼乐高:

不仅如此,生成的乐高还有纹理和颜色:



为了证明 AI 搭乐高的设计过程在现实生活中可用,研究人员让机器臂组装了由 AI 创建的 LEGO 模型,结果很完美。

接下来,我们看文章主要内容。
得益于生成模型和神经渲染技术,3D 生成模型已经取得了显著进展,并在虚拟现实、游戏、娱乐和科学计算等领域实现了各种应用。比如,一些研究探索了从文本合成 3D 对象、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观。
不过,应用现有方法创建现实世界中的对象仍然充满挑战。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象,但受限于两个关键挑战,这些数字设计往往无法在物理上实现。一是,这些对象可能难以使用标准组件来组装或制作。二是,即使可以组装,最终的结构也可能存在物理不稳定。如果没有适当的支撑,设计的某些部分可能会坍塌、漂浮或保持分离状态。
因此,朱俊彦团队探讨了生成物理可实现对象的挑战,并在乐高(LEGO)设计环境中进行研究。乐高广泛应用于娱乐、教育、艺术创作和制造原型。同时,由于所有标准组件很容易获得,乐高可以作为可复现的研究基准。由于手动设计需要付出巨大努力,最近一些研究开发了自动化算法来简化流程并生成了令人信服的结果。
然而,现有方法主要基于给定的 3D 对象创建乐高设计,或者专注于单一对象类别。本文的目标是开发一种方法,直接从自由格式的文本提示生成乐高设计,同时确保其物理稳定性和可搭建性。具体来说,研究者的目标是训练一个生成模型,使其能够生成具有以下特点的设计:
-
物理稳定性:构建在具有强大结构完整性的乐高底板上,不会出现积木漂浮或坍塌的情况。
-
可搭建性:与标准乐高积木兼容,并且能够由人类或机器人逐块组装。
研究者提出了 LEGOGPT,其关键洞察在于将最初用于下一个 Token 预测的自回归大型语言模型重新用于下一个积木预测。他们将乐高设计问题表述为一个自回归文本生成任务,其中下一个积木的尺寸和位置用简单的文本格式指定。而为了确保生成的结构既稳定又可搭建,研究者在训练和推理过程中都强制执行物理感知的组装约束。
在训练过程中,研究者构建了一个包含物理稳定的乐高设计并配有字幕的大规模数据集。在自回归推理过程中,研究者通过有效性检查和物理感知回滚来执行可行性,以确保最终的 Token 符合物理定律和组装约束。
-
论文标题: Generating Physically Stable and Buildable LEGO® Designs from Text
-
论文主页:https://avalovelace1.github.io/LegoGPT/
-
arXiv 地址:https://arxiv.org/pdf/2505.05469
-
GitHub 地址:https://github.com/AvaLovelace1/LegoGPT
-
Demo 地址:https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo
实验表明,本文生成的乐高设计稳定、多样且视觉吸引力强,同时能够完美契合输入文本提示。本文方法优于预训练的 LLM(无论是否包含上下文学习)以及以往基于网格 3D 生成的方法。
朱俊彦表示:LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步。当前版本仍存在局限:仅支持 20x20x20 的构建尺寸、21 种物体类别和基础积木类型,但他们也在努力扩展其能力!
面对这么好玩的应用,网友纷纷求教程:
还有网友担心,复杂的零件能不能完成啊?
方法介绍
数据集
训练自回归模型需要大规模数据集,因此,本文推出了 StableText2Lego,这是一个全新的大规模 LEGO 数据集,包含 47,000 多种不同的乐高结构,并涵盖 ShapeNetCore 数据集中 21 个常见对象类别中的 28,000 多个独特的 3D 对象。其概览如图 2 所示。
LegoGPT Pipeline
在实现方法上,本文提出了 LEGOGPT,这是一种能够根据文本提示生成物理结构稳定的 LEGO 设计的方法。
该方法通过利用 LLM 的序列建模和文本理解能力,对预训练 LLM 进行 LEGO 生成任务的微调。为了增强设计成品的结构稳定性和可搭建性,本文在推理过程中采用了逐块拒绝采样和物理感知回滚机制。图 3 展示了本方法的整体框架。
模型微调:本文进一步使用自定义指令数据集对预训练的 LLM 进行微调,该数据集包含来自 StableText2Lego 的文本提示及其对应的乐高结构。
预训练基础模型。本文使用 LLaMA-3.2-1B-Instruct 作为基础模型,如图 5 所示,基础模型可以通过上下文学习生成类似 LEGO 的设计。
然而,生成的设计通常会遗漏某些物体部件,并且包含相交或断开的积木,这使其在物理上不稳定且无法搭建。为了解决这些问题,本文使用数据集进一步微调了预训练模型。
物理稳定性:尽管该模型基于物理稳定性数据进行了训练,但有时生成的设计仍会违反物理和组装约束。为了解决这个问题,该研究进一步将物理稳定性验证纳入自回归推理中。
如果乐高结构在底板上搭建时不会倒塌,则该结构被认为是物理稳定的且可搭建的。为此,本文使用稳定性分析方法评估物理结构稳定性。图 4 (a) 展示了施加在单个积木上的所有可能力。
LEGOGPT 推理算法如下:
乐高纹理和着色:颜色和纹理在创意乐高设计中也起着至关重要的作用。因此,本文提出了一种应用精细 UV 纹理或为单个积木分配统一颜色的方法。
实验
图 5 展示了一系列多样化、高品质的 LEGO 设计,这些设计紧密遵循输入提示。
本文选取 LLaMAMesh 、LGM、XCube 和 Hunyuan3D-2 作为基线方法。如表 1 所示,本方法在所有指标上均超越基线方法。图 5 直观展示了本方法生成的乐高结构质量显著优于基线方案。
©
(文:机器之心)