成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態大語言模型空間智能新探索:僅需單張圖片或一句話,就可以精準生成3D建模代碼啦!

人工智能
本文提出 CAD-GPT,一種具有三維建模空間定位機制的多模態大模型,以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化,并準確渲染 2D 草圖。利用這些功能,CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現出卓越的性能。

計算機輔助設計(CAD)已經成為許多行業設計、繪圖和建模的標準方法。如今,幾乎每一個制造出來的物體都是從參數化 CAD 建模開始的。CAD 構造序列是 CAD 模型表示的一種類型,不同于 Mesh 類型的三角網格、B-rep 格式的點、線、面表示,它被描述為一系列建模操作,包括確定草圖 3D 起點和 3D 草圖平面方向、繪制 2D 草圖、將草圖拉伸成 3D 實體形狀的完整參數和過程,以 JSON 代碼格式儲存和表示。這類表示方法與專業建模工程師構建 CAD 模型的過程最為近似,可以直接被導入 AutoDesk、 ProE 等建模軟件。構建這些 CAD 模型需要領域專業知識和空間推理能力,也需要較高的學習成本。

圖片

圖 1. CAD 建模代碼示意圖

作為空間智能的關鍵能力之一,空間建模能力對 MLLM 提出了嚴峻的挑戰。盡管 MLLM 在生成 2D 網頁布局代碼等方面展現出了卓越的性能,這類方法在 3D 建模領域仍然存在問題,比如生成 4 個平行于車底方向車輪的小車。這是因為 MLLM 在推理 3D 草圖角度和 3D 空間位置時受限于大語言模型的 1D 推理慣性,難以理解復雜數字背后真正的空間含義。

圖片

圖 2. 原始多模態大模型 3D 建模效果差原因分析

近期,來自上海交通大學的 i-WiN 研究團隊提出了專門用于 CAD 建模的多模態大語言模型 CAD-GPT,結合專門設計的 3D 建模空間定位機制,將 3D 參數映射到 1D 語言信息維度,提高了 MLLM 的空間推理能力,實現了基于單張圖片或一句話描述的精準 CAD 建模構造序列生成。該項研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》為題,被 AAAI 2025 接收。

圖片

  • 論文標題:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
  • 論文地址:https://arxiv.org/abs/2412.19663  
  • 項目地址:https://OpenIWIN.github.io/CAD-GPT/

方法介紹

3D 建模空間定位機制

我們把關鍵的 3D、2D 建模參數定義為大語言模型可以理解的建模語言,便于大模型理解和生成。具體來說,設計了 3 個系列的定位 token 來代替 3D 草圖平面起點坐標、3D 草圖平面角度和 2D 草圖曲線坐標的參數。通過將全局空間 3D 坐標、草圖平面 3D 旋轉角度的特征展開到一維語言特征空間,將它們轉換為兩類不同的 1D 位置 tokens。此外,2D 草圖被離散化并轉換為特殊的 2D token。這些 token 被合并到原始 LLM 詞表中。同時,納入了 3 類適配 3 種 token 的自定義可學習的位置嵌入,以彌合語言和空間位置之間的差距。

數據集構建

基于 DeepCAD 數據集,生成了 160k 固定視角渲染的 CAD 模型圖像和 18k 相應的自然語言描述數據集,構建專門用于訓練多模態大語言模型的 CAD 建模數據集,便于后續其他工作訓練大模型生成 CAD 模型建模序列。

訓練策略與細節

我們采用 LLaVA - 1.5 7B 版本作為基礎模型。訓練包括兩個階段:首先在 image2CAD 任務上進行訓練,然后在 text2CAD 任務上降低學習率進行微調。此外,因 CAD 建模序列長度較長,我們基于外推法,通過超參調整,擴展 LLM 的窗口長度到 8192。

圖片

圖 3. CAD-GPT 原理框架圖

實驗效果展示

圖片

圖 4. CAD-GPT 生成的各種 CAD 模型展示

圖 4 中的模型展示了包含精準語義草圖生成能力(如心形和字母 “E”)、帶有類別的 CAD 生成能力(如桌子、椅子和鑰匙)、空間推理能力(如桌子和相互垂直的圓柱體),以及生成不同尺寸的相同模型的能力(如三個有兩個圓孔的不同尺寸連接器)。

基于單張圖片的生成效果

將 CAD-GPT 與三種代表性方法進行了比較。第一個是 DeepCAD,它演示了 CAD 建模中的先進生成技術。第二個是 GPT-4,代表了閉源多模態大型模型的前沿。第三個是 Qwen2-VL-Max,這是領先的開源多模態大型模型之一。相比之下,CAD-GPT 產生的輸出既準確又美觀。

圖片

圖 5. 基于圖片的 CAD 生成效果對比

圖片

基于一句話描述生成效果展示

本文選擇了兩個有代表性的大型語言模型:領先的閉源模型 GPT-4 和最先進的開源模型 LLaMA-3.1(405B)。如圖 6 所示,我們的模型始終生成高精度、美觀的輸出,并且展示出了與文本描述對應的語義信息。

圖片

圖 6. 基于文本描述的 CAD 生成效果對比

圖片

消融實驗

圖 7 展示了是否添加 3D 建模空間定位機制訓練模型的差異。如圖所示,添加定位機制后,CAD-GPT 可以精準的推理空間角度、位置變化,以及生成準確的 2D 草圖。

圖片

圖 7. 消融實驗效果展示

圖片

總結

本文提出 CAD-GPT,一種具有三維建模空間定位機制的多模態大模型,以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化,并準確渲染 2D 草圖。利用這些功能,CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現出卓越的性能。

責任編輯:姜華 來源: 機器之心
相關推薦

2023-05-08 15:44:23

3D數字人

2023-05-12 14:13:23

3D建模OpenAI

2021-12-30 10:00:07

3DAI 人工智能

2023-10-25 14:17:00

2023-08-28 00:53:03

AI3D

2023-10-09 12:45:09

數據訓練

2021-11-29 09:45:32

模型人工智能深度學習

2023-12-14 12:51:28

LLM3D場景

2022-12-12 13:45:46

模型修圖

2015-08-03 10:21:04

設計模式表達

2020-11-27 09:57:11

Python代碼PyPy

2024-02-08 09:33:37

蘋果AI

2023-09-05 23:34:52

Kubernetes云原生

2025-03-17 08:55:00

AI開源模型

2024-03-04 12:32:39

AI數據

2024-04-01 13:03:00

AI模型

2023-12-13 21:50:59

騰訊AI模型

2010-03-29 11:55:12

無線上網報錯

2022-09-30 15:35:43

AI視頻

2025-01-02 07:00:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久草视频 | 国产精品69毛片高清亚洲 | 91网视频 | 99伊人| 丝袜美腿一区二区三区 | 久久久久久国产精品久久 | 91社区在线观看 | 久久精品99久久 | 精品成人佐山爱一区二区 | 午夜无码国产理论在线 | 日韩美女一区二区三区在线观看 | 免费观看一级毛片 | 操操操日日日 | 亚洲成人午夜在线 | 午夜免费电影 | 国产一二区视频 | 精品中文字幕一区二区三区 | 国产97人人超碰caoprom | 男女啪啪高潮无遮挡免费动态 | 欧美日韩综合 | 午夜欧美 | 久久久精品网 | 欧美在线一二三 | 久久小视频 | 精品久久国产老人久久综合 | 国产欧美精品一区 | 成人综合伊人 | 日本人爽p大片免费看 | 夜夜骑综合 | www.日韩系列 | 亚洲一区二区电影网 | 久久精品小视频 | 在线一区二区国产 | 日韩欧美中文字幕在线视频 | 日韩视频在线观看 | 国产99视频精品免视看9 | 婷婷在线视频 | 欧美日韩久久精品 | 国产精品久久免费观看 | 国产亚洲欧美在线 | 黄色视频a级毛片 |