多模態大語言模型空間智能新探索：僅需單張圖片或一句話，就可以精準生成3D建模代碼啦！

2025-01-03 11:37:13

本文提出 CAD-GPT，一種具有三維建模空間定位機制的多模態大模型，以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化，并準確渲染 2D 草圖。利用這些功能，CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現出卓越的性能。

計算機輔助設計（CAD）已經成為許多行業設計、繪圖和建模的標準方法。如今，幾乎每一個制造出來的物體都是從參數化 CAD 建模開始的。CAD 構造序列是 CAD 模型表示的一種類型，不同于 Mesh 類型的三角網格、B-rep 格式的點、線、面表示，它被描述為一系列建模操作，包括確定草圖 3D 起點和 3D 草圖平面方向、繪制 2D 草圖、將草圖拉伸成 3D 實體形狀的完整參數和過程，以 JSON 代碼格式儲存和表示。這類表示方法與專業建模工程師構建 CAD 模型的過程最為近似，可以直接被導入 AutoDesk、 ProE 等建模軟件。構建這些 CAD 模型需要領域專業知識和空間推理能力，也需要較高的學習成本。

圖 1. CAD 建模代碼示意圖

作為空間智能的關鍵能力之一，空間建模能力對 MLLM 提出了嚴峻的挑戰。盡管 MLLM 在生成 2D 網頁布局代碼等方面展現出了卓越的性能，這類方法在 3D 建模領域仍然存在問題，比如生成 4 個平行于車底方向車輪的小車。這是因為 MLLM 在推理 3D 草圖角度和 3D 空間位置時受限于大語言模型的 1D 推理慣性，難以理解復雜數字背后真正的空間含義。

圖 2. 原始多模態大模型 3D 建模效果差原因分析

近期，來自上海交通大學的 i-WiN 研究團隊提出了專門用于 CAD 建模的多模態大語言模型 CAD-GPT，結合專門設計的 3D 建模空間定位機制，將 3D 參數映射到 1D 語言信息維度，提高了 MLLM 的空間推理能力，實現了基于單張圖片或一句話描述的精準 CAD 建模構造序列生成。該項研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》為題，被 AAAI 2025 接收。

論文標題：CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
論文地址：https://arxiv.org/abs/2412.19663
項目地址：https://OpenIWIN.github.io/CAD-GPT/

方法介紹

3D 建模空間定位機制

我們把關鍵的 3D、2D 建模參數定義為大語言模型可以理解的建模語言，便于大模型理解和生成。具體來說，設計了 3 個系列的定位 token 來代替 3D 草圖平面起點坐標、3D 草圖平面角度和 2D 草圖曲線坐標的參數。通過將全局空間 3D 坐標、草圖平面 3D 旋轉角度的特征展開到一維語言特征空間，將它們轉換為兩類不同的 1D 位置 tokens。此外，2D 草圖被離散化并轉換為特殊的 2D token。這些 token 被合并到原始 LLM 詞表中。同時，納入了 3 類適配 3 種 token 的自定義可學習的位置嵌入，以彌合語言和空間位置之間的差距。