文本、圖像、點云任意模態(tài)輸入,AI能夠一鍵生成高質(zhì)量CAD模型了
本文第一作者為上海科技大學信息學院碩士生徐京偉和憶生科技的王晨宇,指導(dǎo)老師為香港大學的馬毅教授和高盛華教授。王晨宇畢業(yè)于上海科技大學并獲得工學碩士學位。其所在的憶生科技由馬毅教授于 23 年底創(chuàng)立,致力于打造完整、自主、自洽的機器智能系統(tǒng)。
該項目由憶生科技聯(lián)合香港大學、上海科技大學共同完成,是全球首個同時支持文本描述、圖像、點云等多模態(tài)輸入的計算機輔助設(shè)計(CAD)生成大模型。
計算機輔助設(shè)計(Computer-Aided Design,簡稱 CAD)軟件是工業(yè)軟件的重要分支,也是工業(yè)設(shè)計流程中的核心工具。然而,目前的 CAD 軟件普遍缺乏簡易的交互工具,這在一定程度上限制了未曾接觸過 CAD 的用戶嘗試和探索的可能性。對于 CAD 建模從業(yè)者而言,多模態(tài)大模型技術(shù)的快速發(fā)展尚未充分轉(zhuǎn)化為 CAD 領(lǐng)域?qū)嶋H應(yīng)用的便利性和效率提升。如果能夠通過多模態(tài)交互工具有效優(yōu)化建模流程,提升效率、節(jié)約時間與精力,不僅可以進一步釋放專業(yè)用戶的創(chuàng)造潛能,還將為相關(guān)產(chǎn)業(yè)的發(fā)展注入新的活力。
為應(yīng)對這一挑戰(zhàn),項目團隊構(gòu)建了首個覆蓋文本、圖像和點云輸入的多模態(tài) CAD 數(shù)據(jù)集 Omni-CAD。該數(shù)據(jù)集致力于賦能多模態(tài)大語言模型,使其能夠基于條件輸入生成高質(zhì)量的 CAD 模型。與此同時,針對 CAD 模型的拓撲質(zhì)量、空間封閉性等核心屬性,團隊還設(shè)計了一系列創(chuàng)新的評估指標,為模型性能提供更全面的衡量標準。借助這一技術(shù),用戶只需輸入簡單的文本指令,或上傳目標形狀的圖像,即可快速生成符合要求的 CAD 模型。這一突破不僅降低了非專業(yè)用戶的使用門檻,激發(fā)了更多人參與 CAD 設(shè)計的興趣,還為 CAD 建模從業(yè)者提供了高效可靠的工具支持。
- 論文標題:CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
- 論文地址:https://arxiv.org/pdf/2411.04954
- 項目主頁:https://cad-mllm.github.io/
研究背景計算機輔助設(shè)計(CAD)技術(shù)通過數(shù)字化工具,幫助設(shè)計師創(chuàng)建、修改和優(yōu)化復(fù)雜對象,廣泛應(yīng)用于工業(yè)設(shè)計與制造。但傳統(tǒng)的流程較為復(fù)雜,對專業(yè)知識有較高要求,導(dǎo)致非專業(yè)用戶難以參與設(shè)計。如何降低使用門檻,讓非專業(yè)人士通過簡單指令完成設(shè)計構(gòu)想,已成為該領(lǐng)域亟待解決的挑戰(zhàn)之一。盡管之前一些工作已經(jīng)在探索 CAD 的生成任務(wù),但這些方法抑或難以滿足用戶對交互設(shè)計的需求,抑或只能針對特定的輸入進行生成,因此我們希望提供一個統(tǒng)一的框架能夠處理不同或多種輸入條件的 CAD 生成任務(wù)。
而另一方面,盡管多模態(tài)大模型(MLLMs)展現(xiàn)了跨模態(tài)生成的潛力,但在 CAD 領(lǐng)域依然面臨挑戰(zhàn)。尤其是在如何高效表征各種模態(tài)和 CAD 模型上,同時,數(shù)據(jù)集匱乏問題也一直是一大瓶頸。因此,我們提出了 CAD-MLLM,首個支持文本、圖像和點云三種模態(tài)及其組合模態(tài)輸入的以命令序列來表征的參數(shù)化 CAD 大模型,并搭配構(gòu)建了一個超過 45 萬條數(shù)據(jù)的多模態(tài) CAD 數(shù)據(jù)集 Omni-CAD,推進該領(lǐng)域的研究。
技術(shù)創(chuàng)新
1. 首個支持多模態(tài)輸入的參數(shù)化 CAD 生成多模態(tài)大模型
我們提出了一個能夠同時處理文本、圖像和點云,最多三種模態(tài)輸入數(shù)據(jù)的模型。圖像和點云輸入首先通過一個凍結(jié)的編碼器提取特征,經(jīng)投影層對齊到大語言模型(LLM)的特征空間。隨后,將各種模態(tài)的特征進行整合,并利用低秩適應(yīng)(LoRA)對 LLM 進行微調(diào),實現(xiàn)基于多模態(tài)輸入數(shù)據(jù)的精確 CAD 模型生成。
2. 首個多模態(tài) CAD 數(shù)據(jù)集
為了支持模型訓練,我們設(shè)計了一套全面的數(shù)據(jù)構(gòu)造和標注管道,構(gòu)建了包含 45 萬條的多模態(tài) CAD 模型數(shù)據(jù)集 Omni-CAD。每條數(shù)據(jù)包含對應(yīng)的 CAD 模型構(gòu)造命令序列,以及文本描述、8 個不同視角的圖像(下圖隨機挑其中 4 個視角展示)以及點云數(shù)據(jù),極大地填補了 CAD 多模態(tài)數(shù)據(jù)資源的空白,也有助于推動 CAD 生成領(lǐng)域的進一步發(fā)展。
3. 評估指標
在評估指標上,之前的工作更多聚焦在模型的重建質(zhì)量和結(jié)構(gòu)保真度上,而我們針對 CAD 模型的特性,基于最終生成的 CAD 模型的拓撲質(zhì)量和空間封閉性,創(chuàng)新性地提出了四種量化指標。其中,Segment Error(SegE)檢測 CAD 模型節(jié)點連接分段的準確性,Dangling Edge Length (DangEL) 評估懸邊的比例來衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 檢測生成模型中的自相交面問題。而 Flux Enclosure Error (FluxEE) 則通過高斯散度原理,計算常矢量場穿過生成表面的通量,評估模型的空間封閉性。
性能評估
1. 基于點云的 CAD 模型生成性能
我們與多個點云重建或者基于點云生成的基準工作進行比較,評測結(jié)果展示出我們的方法在重建精度上表現(xiàn)出色。而在拓撲完整性的評估上,我們模型生成的 CAD 模型大多數(shù)生成結(jié)果都能保持嚴格的流形結(jié)構(gòu),沒有出現(xiàn)懸邊,具有較高的拓撲完整性。相比之下,基準模型在重建結(jié)果中往往存在許多懸空邊緣(如圖中藍線所示)。
2. 魯棒性測評
在基于點云生成 CAD 模型的比較實驗中,我們針對兩種受干擾的輸入數(shù)據(jù)的情況進行了測評:添加噪聲的點云數(shù)據(jù)及部分點缺失的點云數(shù)據(jù)。在從測試集中隨機挑選的 1000 個樣本上,使用 Chamfer Distance 來衡量生成結(jié)果,在兩種情況下,CAD-MLLM 的性能均優(yōu)于基線工作,特別是在一些極端條件下,依然展現(xiàn)出了良好的性能。
3. 多模態(tài)數(shù)據(jù)訓練必要性測評
我們通過三個實際場景來展示多模態(tài)數(shù)據(jù)訓練對于模型生成能力的輔助提升,1)裁剪的點云數(shù)據(jù);2)帶有噪聲的點云數(shù)據(jù);3)雙視角圖像輸入。以上三種情況,單一模態(tài)數(shù)據(jù)的訓練,會由于細節(jié)丟失或者視角限制使得輸入信息的不準確,進而導(dǎo)致生成結(jié)果的不完整或者不精準,而加入完整的模型的文本描述,可有效彌補未觀測到的部分,生成更為完整、精確的 CAD 模型。