成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

牛津大學最新 | 近400篇總結!暢談大語言模型與三維世界最新綜述

人工智能 新聞
通過這篇論文,我們旨在為未來的研究制定一條路線,探索和擴展3D LLM在理解復雜的3D世界和與之互動方面的能力。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

隨著大型語言模型(LLM)的發展,它們與3D空間數據(3D LLM)之間的集成取得了快速進展,為理解物理空間和與物理空間交互提供了前所未有的能力。本文全面概述了LLM處理、理解和生成3D數據的方法。我們強調了LLM的獨特優勢,如上下文學習、逐步推理、開放詞匯能力和廣泛的世界知識,強調了它們在嵌入式人工智能(AI)系統中顯著推進空間理解和互動的潛力。我們的研究涵蓋了從點云到神經輻射場(NeRF)的各種3D數據表示。并分析它們與LLM的集成,用于3D場景理解、字幕、問答和對話等任務,以及用于空間推理、規劃和導航的基于LLM的代理。本文還簡要回顧了其他將3D和語言相結合的方法,進一步揭示了相關重大進展,但強調了利用3D LLM的全部潛力的新方法的必要性。因此通過這篇論文,我們旨在為未來的研究制定一條路線,探索和擴展3D LLM在理解復雜的3D世界和與之互動方面的能力。

開源鏈接:https://github.com/ActiveVisionLab/Awesome-LLM-3D

相關背景

本節提供有關三維表示、大型語言模型(LLM)、二維視覺語言模型(VLM)和視覺基礎模型(VFM)的基本背景知識。

3D表示

選擇3D表示來描述、建模和理解我們的世界是一個至關重要的主題,有助于理解3D LLM的當前進展。它也是計算機視覺的一個基礎研究領域。由于深度學習、計算資源和3D數據可用性的進步,該領域最近出現了大幅增長。我們簡要介紹目前使用的最常見的三維表示。

點云:用空間中的一組數據點表示三維形狀,將每個點的位置存儲在三維笛卡爾坐標系中。除了存儲位置之外,還可以存儲每個點的其他信息(例如顏色、法線)?;邳c云的方法以其低存儲占用空間而聞名,但缺乏表面拓撲信息。獲取點云的典型來源包括激光雷達傳感器、結構光掃描儀、飛行時間相機、立體視圖、攝影測量等。

體素網格:由三維空間中的單位立方體組成,類似于二維空間中的像素表示。每個體素最低限度地編碼占用信息(二進制或概率地),但可以附加地編碼到表面的距離,如在有符號距離函數(SDF)或截斷符號距離函數(TSDF)中。然而當需要高分辨率的細節時,內存占用可能會變得過多。

多邊形網格:表示由頂點和曲面組成,可以緊湊地描述復雜的三維形狀。然而,它們的非結構化和不可微性質在將它們與神經網絡集成以實現端到端可微管道方面帶來了挑戰。解決這個問題的一些解決方案,例如基于梯度近似的方法,只能使用手工制作的梯度計算。其他解決方案,如可微分光柵化器,可能會導致不精確的渲染結果,如內容模糊。

近年來,神經場在3D研究界引起了越來越多的興趣,與依賴于幾何圖元的傳統表示不同。神經場是從空間坐標到場景屬性(如占用、顏色、輻射等)的映射,但與體素網格不同的是,在神經場中,映射是一個學習函數,通常是多層感知器。通過這種方式,神經場隱含地學習緊湊、連續和可微分的3D形狀和場景表示。

一組神經領域專注于隱式表面表示。占用網絡在由神經網絡表示的連續3D占用函數中對形狀進行編碼,使用來自點云、低分辨率體素或圖像的3D點位置和特征來估計占用概率。同時,深度SDF網絡使用神經網絡從三維坐標和潛在向量估計SDF。最近的方法,如NeuS和NeuS2,顯著提高了靜態和動態目標的表面重建保真度和效率。

另一組被稱為神經輻射場(NeRF)的方法顯示了強大的3D世界真實感渲染能力。這些方法使用位置編碼技術對場景細節進行編碼,并利用MLP來預測相機光線的輻射值(顏色和不透明度)。然而,MLP推斷空間中每個采樣點(包括空空間中的采樣點)的顏色和占用細節的必要性需要大量的計算資源。因此,有強烈的動機來減少NeRF的實時應用程序的計算開銷。

混合表示試圖將NeRF技術與傳統的基于體積的方法相結合,促進高質量的實時渲染。例如,將體素網格或多分辨率哈希網格與神經網絡相結合,大大減少了NeRF的訓練和推理時間。

3D高斯散射是點云的一種變體,其中每個點都包含額外的信息,表示該點周圍的空間區域中發射的輻射為各向異性的3D高斯“斑點”。這些3D高斯通常是從SfM點云初始化的,并使用可微分渲染進行優化。3D高斯散射通過利用高效的光柵化而非光線追蹤,以NeRF計算的一小部分實現了最先進的新型視圖合成。

LLM

傳統的自然語言處理(NLP)包含了廣泛的任務,旨在使系統能夠理解、生成和操作文本。NLP的早期方法依賴于基于規則的系統、統計模型和早期的神經結構(如遞歸神經網絡)等技術。最近引入的大型語言模型(LLM)采用了transformer架構和在大量文本語料庫上進行訓練,取得了前所未有的性能,并在該領域引發了新的熱潮。由于本文的重點是三維LLM,我們在這里提供了LLM的相關背景知識。為了深入探索LLM,我們參考了該地區的最新調查。

LLM結構

在LLM的上下文中,“編碼器-解碼器”和“僅解碼器”架構主要用于NLP任務。

  • Encoder-decoder architectures;
  • Decoder-only architectures;
  • Tokenization:標記化是一種將輸入文本分解為標記序列的預處理方法,標記序列是語言模型中的基本數據單元。令牌的數量是有限的,每個令牌可以對應一個單詞、子單詞或單個字母。在推理過程中,輸入文本被轉換為令牌序列,并被饋送到模型,模型預測輸出令牌,然后將輸出令牌轉換回文本。標記化對語言模型的性能有很大影響,因為它影響了模型對文本的感知。使用了各種標記化技術,例如單詞級標記化、子單詞標記化(例如字節對編碼、WordPiece、PencePiece)和字符級標記化。

LLM Emergent Abilities

LLM和傳統的非LLM方法之間的一個主要區別是在大模型中可用但在小模型中不存在的涌現能力。術語“應急能力”是指隨著LLM規模和復雜性的擴大而產生的新的復雜能力。這些能力使人們能夠深入理解和生成自然語言,在沒有特定訓練的情況下解決各個領域的問題,并通過情境學習適應新任務。在下文中,我們將介紹LLM范圍內的幾種常見涌現能力。

上下文學習是指LLM根據提示中提供的上下文理解和響應新任務或查詢的能力,而不需要明確的再培訓或微調。里程碑論文(GPT-2/GPT-3)以多鏡頭的方式展示了上下文學習,其中向模型提供提示中的幾個任務示例,然后要求其在沒有事先明確訓練的情況下處理不同的示例。最先進的LLM,如GPT-4,表現出非凡的上下文學習能力,理解復雜的指令,并執行從簡單翻譯到生成代碼和創造性寫作的廣泛任務,所有這些都基于提示中提供的上下文。

LLM中的推理,通常被稱為“思維鏈”提示,涉及到在處理復雜問題或問題時生成中間步驟或推理路徑的模型。這種方法允許LLM將任務分解為更小、可管理的部分,從而促進更結構化和更易于理解的解決方案過程。為了實現這一點,訓練涉及數據集,其中包括各種解決問題的任務、邏輯謎題和旨在模擬不確定性下推理的數據集。當前最先進的LLM通常在模型大小大于60B到100B的參數時表現出高級推理能力。

指令遵循是指模型理解和執行命令的能力,或按照用戶指定的指令執行的能力。這包括解析指令,理解其意圖,并生成適當的響應或操作。用于使這種能力適應新任務的方法可能需要來自包含與正確響應或動作配對的各種指令的數據集的指令調整。監督學習、來自人類反饋的強化學習和互動學習等技術可以進一步提高績效。

LLM Fine-tuning

在3D LLM的背景下,LLM要么在其預訓練狀態下直接使用,要么進行微調以適應新的多模式任務。然而,由于涉及大量的參數,對LLM的整個參數進行微調會帶來顯著的計算和內存挑戰。因此,通過僅更新模型參數的相對較小的子集而不是重新訓練整個模型,參數有效微調(PEFT)在使LLM適應特定任務方面變得越來越流行。以下部分列出了LLM中使用的四種常見PEFT方法。

低秩自適應(LoRA)和變體通過低秩矩陣更新參數。從數學上講,在微調期間LoRA的正向通過可以表示為h=W0x+BAx。W0是LLM的凍結權重,而BA是由在微調階段更新的新引入的矩陣a和B參數化的低秩矩陣。這種方法有幾個明顯的好處。在微調過程中,只有B和A被優化,顯著減少了與梯度計算和參數更新相關的計算開銷。一旦微調結束并合并權重,與原始模型相比就沒有額外的推理成本,如方程所示:h=(W0+BA)x。此外,不需要為不同的任務保存LLM的多個副本,因為可以保存多個LoRA實例,從而減少存儲占用。

層凍結:凍結預訓練模型的選定層,同時在訓練期間更新其他層。這通常適用于更接近模型輸入或輸出的層,具體取決于任務的性質和模型架構。例如,在3D-LLM方法中,除了輸入和輸出嵌入之外的所有層都可以被凍結,以減輕特定任務數據集的過擬合風險,保留預先訓練的一般知識并減少需要優化的參數。

Prompt Tuning通過在提示中設置LLM的框架來指導LLM執行特定任務,與調整模型參數的傳統微調相比,調整模型輸入。手動提示工程是最直觀的方法,但經驗豐富的提示調諧工程師很難找到最佳提示。另一組方法是自動提示生成和優化。一種流行的方法是搜索精確的最佳輸入提示文本,稱為硬提示,例如?;蛘?,可以使用優化方法來優化提示(軟提示)的嵌入。

自適應微調通過添加或刪除層或模塊來為特定任務定制模型體系結構。這可以包括集成新的數據模式,如視覺信息和文本數據。自適應微調的核心思想是利用插入預訓練模型層之間的小型神經網絡模塊。在自適應微調期間,僅更新這些適配器模塊的參數,而原始模型權重保持不變。

2D Vision-Language models

視覺語言模型是一系列模型,旨在捕捉和利用文本和圖像/視頻之間的關系,并能夠執行兩種模式之間的交互任務。大多數VLM都具有基于Transformer的體系結構。通過利用注意力模塊,視覺和文本內容相互制約,從而實現相互互動。在下面的段落中,我們將簡要介紹VLM在判別和生成任務中的應用。

判別任務包括預測數據的某個特征。VLM,如CLIP和ALIGN,在圖像分類中對看不見的數據的零樣本可傳輸性方面表現出了非凡的性能。這兩個模型都包括兩個模塊:視覺編碼器和文本編碼器。給定圖像及其類別,CLIP和ALIGN是通過最大限度地提高句子“{圖像類別}的照片”的圖像嵌入和文本嵌入之間的相似性來訓練的。零樣本可轉移性是通過在推理過程中用可能的候選者替換“{圖像類別}”并搜索與圖像最匹配的句子來實現的。這兩部作品啟發了眾多后續作品,進一步提高了圖像分類的準確性。這些模型還可以提取學習到的知識用于其他任務,包括目標檢測、圖像分割、文檔理解和視頻識別。

生成任務利用VLM從輸入數據生成文本或圖像。通過利用大規模訓練數據,單個VLM通常可以執行多個圖像到文本的生成任務,如圖像字幕和視覺問答(VQA)。值得注意的例子包括SimVLM、BLIP和OFA等。更強大的VLM,如BLIP-2、Flamingo和LLaVA,能夠處理基于輸入圖像的多回合對話和推理。隨著擴散模型的引入,文本到圖像的生成也成為了研究界的焦點。通過對大量的圖像-文本對進行訓練,擴散模型可以基于文本輸入生成高質量的圖像。此功能還擴展到生成視頻、3D場景和動態3D目標。除了生成任務外,還可以通過文本提示編輯現有圖像。

Vision Foundation Models

視覺基礎模型(VFM)是一種大型神經網絡,旨在提取足夠多樣化和富有表現力的圖像表示,以便直接部署在各種下游任務中,反映預先訓練的LLM在下游NLP任務中的作用。一個值得注意的例子是DINO,它使用了一種自我監督的師生培訓模式。所學習的表示在圖像分類和語義圖像匹配方面都取得了良好的效果。DINO中的注意力權重也可以用作觀察到的場景的語義成分的分割掩碼。iBOT和DINOv2等后續工作通過引入掩蔽圖像建模(MIM)損失來進一步改進表示。SAM是一種基于變換器的圖像分割模型,在由11億張具有語義掩碼的圖像組成的數據集上進行訓練,并表現出強大的零樣本傳遞能力。DINO(Zhang等人)——不要與DINO(Caron等人)混淆——采用了類似DETR的架構和混合查詢選擇來進行目標檢測。后續工作Grounding DINO引入文本監督以提高準確性。Stable Diffusion是一種文本到圖像生成器,它還被用作“真實”圖像的特征提取器,方法是對干凈或人工噪聲圖像運行單個擴散步驟,并提取中間特征或注意力掩碼。這些特征最近被用于分割和圖像匹配任務,這是由于用于擴散模型的訓練集的大小和多樣性,以及由于觀察到的擴散特征的涌現特性,例如圖像之間的零樣本對應。

任務

3D Captioning (3D → Text)

  • Object-Level Captioning
  • Scene-Level Captioning
  • 3D Dense Captioning

3D Grounding (3D + Text → 3D Position)

  • Single-Object Grounding
  • Multi-Object Grounding

3D Conversation (3D + Text → Text)

  • 3D Question Answering (3D-QA)
  • 3D Situated Question Answering (3D-SQA)
  • 3D Dialogue

3.4 3D Embodied Agents (3D + Text → Action)

  • 3D Task Planning
  • 3D Navigation
  • 3D Manipulation

3.5 Text-to-3D Generation (Text → 3D)

  • 3D Object Generation
  • 3D Scene Generation
  • 3D Editing

3D TASKS WITH LLMS

3D場景理解任務已經被廣泛研究。場景理解的核心是識別和分類指定三維環境中的所有目標,這一過程被稱為語義或實例級理解。這一階段至關重要,因為它構成了建立更微妙解釋的基礎。隨后,更高層次的場景理解側重于空間理解,空間理解是指空間場景圖的構建和目標關系的語義。更進一步,可以預測潛在的互動,例如可供性、場景變化,以及理解場景的更廣泛背景,例如功能和美學風格。3D數據還提出了2D中不存在的獨特挑戰,例如獲得和標記3D數據的相對較高的成本、不均勻密集或與網格對齊的稀疏3D數據結構,以及需要協調相同目標的多個(可能被遮擋的)視點。為此,研究人員利用了語言的力量,可以嵌入3D世界中的語義和關系。最近在將大型語言模型(LLM)與3D數據集成方面的努力表明,利用LLM的內在優勢,即零樣本學習、上下文學習、逐步推理和廣泛的世界知識,有望實現多層次的理解和交互。

How do LLMs process 3D scene information?

傳統的LLM僅限于文本作為輸入和輸出,這使得攝取3D信息的能力成為所有3D-LLM方法的主要關注點。總體思路是將3D目標或場景信息映射到語言空間中,使LLM能夠理解和處理這些3D輸入。具體而言,這通常涉及兩個步驟:(i)使用預先訓練的3D編碼器來處理相應的3D表示,產生原始3D特征;(ii)采用對齊模塊將這些3D特征轉換成LLM可以處理的3D標記,類似于所述的標記化過程。經過預訓練的LLM然后可以在生成輸出時使用這些對齊的3D標記。

如前所述,考慮到3D表示的多樣性,有多種方法可以獲得3D特征。如表1中的“3D幾何”列所示,點云由于其簡單性和與各種預先訓練的3D編碼器的兼容性而最為常見,這使其成為多任務和多模式學習方法的熱門選擇。多視圖圖像也經常被使用,因為對2D特征提取的研究已經成熟,這意味著3D特征提取只需要額外的2D到3D提升方案。使用深度相機容易獲得的RGB-D數據通常用于3D嵌入式代理系統中,以提取與視點相關的信息用于導航和理解。3D場景圖是一種更抽象的3D表示,擅長對目標的存在及其關系進行建模,并捕捉場景的高級信息。它們經常用于3D場景分類和規劃任務。NeRF目前較少用于3D-LLM方法。我們認為這是由于它們的隱式性質,這使得它們更難標記化并與前饋神經網絡集成。

LLMs for Enhancing 3D Task Performance

根據大量數據訓練的LLM已被證明可以獲得有關世界的常識性知識。LLM的世界知識和推理能力的潛力已經被探索出來,以增強對3D場景的理解,并重新制定幾個3D任務的管道。在本節中,我們將重點介紹旨在使用LLM來提高現有方法在3D視覺語言任務中的性能的方法。當將LLM應用于3D任務時,我們可以將其使用分為兩組:知識增強和推理增強方法。知識增強方法利用LLM中嵌入的廣闊世界知識來提高3D任務性能。這可以提供上下文見解,填補知識空白,或者可以增強對3D環境的語義理解。或者,增強推理的方法不是依賴于它們的世界知識,而是利用LLM的能力逐步進行推理,從而提供更好的泛化能力來應對更復雜的3D挑戰。以下兩部分分別介紹了這些方法。

  • Knowledge-enhanced approaches:有幾種方法可以利用LLM世界知識。Chen等人使用LLM從RGB-D圖像進行3D房間分類。這里,LLM中嵌入的知識用于基于房間中包含的對象類別信息來確定房間類別。首先,這種方法從Matterport3D數據創建場景圖,其中包含區域和對象的節點,以及鏈接到房間節點的對象節點。接下來,選擇關鍵對象以形成每個房間類型的查詢。從所選對象中提取的LLM分數描述,最高分數預測房間標簽。還可以提供諸如尺寸或位置之類的空間信息。
  • Reasoning-enhanced approaches:除了世界知識外,LLM的推理能力還有助于處理其他3D任務,特別是在具有詳細幾何結構和多個對象的復雜3D場景中的視覺基礎。在這種情況下,對象的文本描述應該包括它們的外觀以及與周圍項目的空間關系。由于無法理解詳細的文本描述,普通的接地方法在這種情況下往往很困難。LLM-Grounder、Transcribe3D和零樣本3DVG通過利用LLM的推理能力來分析文本描述并生成一系列指令來使用現有的接地工具箱來定位對象,從而解決了這個問題。

LLMs for 3D Multi-Task Learning

許多工作側重于使用LLM的指令跟隨和上下文學習功能,將多個3D任務統一到一個語言空間中。通過使用不同的文本提示來表示不同的任務,這些研究旨在使LLM成為一個統一的對話界面。使用LLM實現多任務學習通常涉及幾個關鍵步驟,從構建3D文本數據對開始。這些配對需要以文本形式精心制作任務指令,并定義每個不同任務的輸出。接下來,3D數據(通常以點云的形式)被饋送到3D編碼器以提取3D特征。對齊模塊隨后用于(i)在多個級別(目標級別、關系級別和場景級別)上將3D特征與來自LLM的文本嵌入對齊,以及(ii)將3D特征翻譯成LLM可解釋的標記。最后,需要選擇合適的訓練策略,例如單階段或多階段的3D語言對齊訓練和多任務指令微調。

在本節的剩余部分中,我們將詳細探討這些方面。我們在表2中還總結了本節中審查的每種方法的范圍和能力。

  • Data for Multi-Task Learning:如表2所示,我們將任務分為四類:字幕、基礎、問答(QA)和具體代理任務(即計劃、導航和操作)。因此,每個任務的文本輸出都遵循預定義的格式。對于字幕和QA任務,輸出為純文本,不受特定格式的限制。基礎任務的輸出是一個三維邊界框,通常是參考對象的中心坐標及其三維大小。通常,點和大小的值被歸一化為落在0-255的范圍內,這限制了LLM需要預測的令牌的范圍。對于規劃,模型以文本形式輸出一系列執行任務的步驟,而對于導航,輸出是一系列空間坐標。對于操作,輸出是文本形式的動作序列。現有方法遵循這些準則來構建其多任務指令微調數據集。
  • Training an LLM for multiple 3D tasks:為多個3D任務訓練LLM的第一步涉及獲得有意義的3D特征,其中提取方法根據3D場景的類型而變化。對于單個對象點云,point LLM、Chat-3D和GPT4Point利用point BERT提取3D對象特征。對于室內場景,LEO使用PointNet++進行特征提取,而Chat-3D v2和3DMIT對場景進行分割,并使用Uni-3D為每個分割部分提取特征。同時,MultiPLY將提取的對象特征集成到場景圖中,以表示整個場景。3D-LLM和場景LLM將特征從2D多視圖圖像提升到3D表示中。3D-LLM從Mask2Former或SAM中提取2D語義特征。場景LLM遵循ConceptFusion融合全局信息和局部細節,將逐像素的CLIP特征映射為逐點的3D特征。對于室外3D場景,LiDAR LLM使用VoxelNet來提取3D體素特征。

LLMs as 3D Multi-Modal Interfaces

除了探索3D多任務學習器外,最近的一些研究還結合了不同模式的信息,以進一步提高模型的能力并實現新的交互。除了文本和3D場景之外,多模式3D LLM還可以包括場景中的2D圖像、音頻或觸摸信息作為輸入。

大多數作品旨在構建跨不同模態的公共表示空間。由于一些現有作品已經提供了將文本、圖像或音頻映射到公共空間的預訓練編碼器,一些作品選擇學習將3D嵌入與用于其他模態的預訓練的編碼器的嵌入空間對齊的3D編碼器。JM3D-LLM學習將點云的嵌入空間與SLIP的文本圖像嵌入空間對齊的3D點云編碼器。它渲染點云的圖像序列,并在訓練期間構建層次文本樹,以實現詳細對齊。Point Bind還學習了一個類似的3D編碼器,并將其與ImageBind對齊,以統一圖像、文本、音頻和點云的嵌入空間。這使得能夠使用不同的任務頭在各種模式之間處理不同的任務,例如檢索、分類和生成。然而,一個值得注意的限制是,這種方法僅適用于小規模的目標級場景,因為3D編碼器處理具有數百萬點的大型場景在計算上是昂貴的。此外,像CLIP這樣的大多數預訓練多模式編碼器都是為單目標場景設計的,不適合具有多個目標和局部細節的大型場景。

相反,大型場景需要更細致的設計來融合多種模式。ConceptFusion構建了一個增強的特征圖,該特征圖融合了大型場景的每個組成圖像的全局信息和局部細節。這是通過使用已經與包括文本和音頻在內的不同模態對齊的預先訓練的特征提取器來實現的。然后,它使用傳統的SLAM方法將特征圖映射到場景的點云。MultiPLY采用了與ConceptGraph類似的表示方式。它識別場景中的所有顯著目標,獲得每個目標的全局嵌入,并最終構建場景圖。所得到的表示是與Llama的嵌入空間對齊的場景嵌入。包括音頻、溫度和觸覺在內的其他模態的嵌入也可以使用線性投影映射到相同的空間。所有嵌入都被標記化,并立即發送到LLM。與目標級場景的方法相比,可以處理大型場景的方法通過依賴預先訓練的編碼器來彌補模態差距,而不是從頭開始學習新的編碼器,從而降低了成本。

LLMs for Embodied Agents

可以使用LLM的規劃、工具使用和決策能力來創建3D具體代理。這些能力使LLM能夠生成智能決策,包括在3D環境中導航、與目標交互以及選擇適當的工具來執行特定任務。本節描述了3D具體代理如何執行規劃、導航和操作任務。

  • 3D Task Planning:對于具體代理,“任務規劃”是指在給定任務描述和3D環境的情況下,生成執行特定任務的步驟的能力。任務規劃通常是導航和操縱任務的先決條件,因為規劃的準確性直接影響后續任務的性能。LEO和LLM Planner利用LLM生成逐步計劃,并根據環境感知進行動態調整。LEO強調基于當前場景配置的場景感知規劃,而LLM Planner采用GPT3將規劃劃分為高級子目標和低級動作,并在任務執行過程中代理陷入困境時進行重新規劃。3D-VLA通過生成的世界模型將3D感知、推理和動作相結合。它專注于通過利用其生成模型來預測未來的狀態表示(例如目標圖像和點云)來增強規劃能力。
  • 3D Navigation:3D導航是指嵌入式代理在3D環境中移動和定位自己的能力,通?;谝曈X輸入和語言指令。所描述的每種方法——LEO、Agent3D Zero、LLM Planner和NaviLLM——都以不同的方式實現3D導航。LEO處理以自車為中心的2D圖像和以目標為中心的3D點云以及文本指令。
  • 3D Object Manipulation:在3D具體代理的上下文中,操縱是指它們與目標進行物理交互的能力,從移動目標到組裝零件或打開門等復雜序列。用于使LLM能夠執行操作任務的核心思想在于將動作序列標記化。為了讓LLM輸出特定的動作,首先需要定義動作令牌,該動作令牌允許LLM基于任務和3D場景上下文生成所述動作。隨后,像CLIPort或機械臂中的運動規劃模塊這樣的平臺將這些標記化的動作轉化為由代理執行的物理動作。

LLMs for 3D Generation

傳統上,3D建模是一個復雜的時間密集型過程,進入門檻很高,需要對幾何體、紋理和照明進行詳細關注才能獲得逼真的結果。在本節中,我們將仔細研究LLM與3D生成技術的集成,展示語言如何提供一種在場景中生成上下文化目標的方法,并為3D內容創建和操作提供創新的解決方案。

  • Object-level Generation:Shape GPT使用特定形狀的3D VQ-VAE將3D形狀量化為離散的“形狀字”標記。這使得能夠將形狀數據與文本和圖像一起集成到T5語言模型的多模態輸入中。這種多模態表示使T5能夠學習跨模態交互,例如文本到形狀的生成和形狀編輯/完成。GPT4Point使用雙流方法-通過point QFormer將點云幾何圖形與文本對齊,然后將其輸入到耦合的LLM和擴散路徑中,用于文本理解和符合文本輸入的高保真3D目標生成。
  • Scene-scale Generation:Holodeck和GALA-3D采用多級管道將初始粗略的3D場景布局從文本逐步細化為詳細逼真的3D環境。Holodeck采用專門的模塊來制作基本布局,選擇材料,并根據GPT-4的空間推理和布局/風格建議融入門窗等元素。然后,它使用與GPT-4的文本描述相匹配的Ob厭惡資產填充布局。優化器根據從GPT-4獲得的空間關系約束來排列這些目標,以鼓勵真實的目標布局和交互。
  • Procedural Generation and Manipulation:LLMR、3D-GPT和SceneCraft采用具有專門組件/代理的模塊化架構,用于從自然語言進行交互式3D世界創建和代碼生成。LLMR由不同的組件組成,用于生成代碼以在Unity中構建場景,了解現有場景目標和屬性以進行修改,識別執行指令所需的功能,并評估最終代碼質量。類似地,3D-GPT具有用于解釋指令和確定所需生成函數的組件,使用詳細的建模屬性豐富描述,并將豐富的描述轉換為Blender API的Python代碼??偟膩碚f,這些方法展示了LLM組件的任務分解和專業化,以處理指令解釋、函數映射和穩健的代碼生成。

3D TASKS WITH VLMS

Open-Vocabulary 3D Scene Understanding

開放詞匯3D場景理解旨在使用自然語言描述而不是預定義的類別標簽來識別和描述場景元素。OpenScene采用零樣本方法,預測與CLIP的文本和圖像像素嵌入共同嵌入到共享特征空間中的3D場景點的密集特征,實現任務識別訓練和開放詞匯查詢,以識別目標、材料、啟示、活動和房間類型。CLIP-FO3D遵循類似的方法,修改CLIP以從投影到點云的3D場景中提取密集的像素特征,然后通過蒸餾訓練3D模型以轉移CLIP的知識。語義抽象從CLIP中提取關聯圖作為抽象目標表示,以推廣到新的語義、詞匯和領域。Open Fusion將SEEM視覺語言模型與TSDF 3D映射相結合,利用基于區域的嵌入和置信度圖進行實時開放詞匯場景創建和查詢。

Text-Driven 3D Generation

在這里,我們調查了利用2D VLM和使用可微分渲染的文本到圖像擴散模型的指導的文本到3D生成方法。DreamFields、CLIP-Mesh、CLIP-Forge和Text2Mesh等早期作品探索了CLIP指導的零樣本3D生成。

DreamFusion引入了Score Distriction Sampling(SDS),其中3D表示的參數通過使其從任意角度的渲染看起來高度逼真來進行優化,如通過預先訓練的2D擴散模型進行評估。它使用文本到圖像的Imagen模型來通過SDS優化NeRF表示。Magic3D提出了一個兩階段框架:生成具有低分辨率擴散先驗和稀疏3D哈希網格的粗略模型,然后使用高效的可微分渲染器和高分辨率潛在擴散模型優化紋理3D網格模型。Fantasia3D使用混合DMET表示和空間變化的BRDF,將幾何圖形和外觀解開。ProlificDreamer引入了變分分數蒸餾(VSD),這是一種基于粒子的框架,將3D參數視為隨機變量,以提高保真度和多樣性。Dream3D利用明確的3D形狀先驗和文本到圖像的擴散模型來增強文本引導的3D合成。MVDream采用了可在少量鏡頭數據上訓練的多視圖一致擴散模型,用于個性化生成。Text2NeRF將NeRF表示與預先訓練的文本到圖像擴散模型相結合,以根據語言生成不同的室內/室外3D場景。除了同時生成幾何圖形和外觀外,一些研究還探索了僅基于給定幾何圖形合成紋理的可能性。

End-to-End Architectures for 3D Vision & Language

在大型3D文本數據集上預先訓練的Transformer模型學習強大的聯合表示,將視覺和語言模態連接起來。3D VisTA是一種Transformer模型,它利用自注意力對3D視覺和文本數據進行聯合建模,實現對掩蔽語言/目標建模和場景文本匹配等目標的有效預訓練。UniT3D采用統一的Transformer方法,結合PointGroup 3D檢測主干、BERT文本編碼器和多模式融合模塊,對合成的3D語言數據進行聯合預訓練。SpatialVLM采用了不同的策略,在大型合成三維空間推理數據集上共同訓練VLM,提高了三維空間視覺問答任務的性能,并支持機器人的思想鏈推理等應用。Multi CLIP預訓練3D場景編碼器,使場景特征與CLIP的文本和圖像嵌入對齊,旨在傳遞CLIP的知識,以提高對視覺問答等任務的3D理解。

數據集

挑戰和未來機遇

盡管LLM與3D數據的集成取得了進展,但在數據表示、計算效率和基準方面仍然存在挑戰,需要創新的解決方案。

表示選擇對三維視覺語言模型的性能有很大影響。目前,點云由于其簡單性和神經網絡兼容性,主要用于表示室內(例如網格的頂點)和室外(例如激光雷達點云)環境。然而,他們很難捕捉到對準確、豐富的空間模型至關重要的細節。開發新的3D場景表示,更有效地彌合空間信息和語言之間的差距,可以開啟新的理解和互動水平。通過找到在3D表示中編碼語言和語義信息的創新方法,例如使用提取的語言和語義嵌入,可以幫助彌合這兩種模式之間的差距。

3D數據處理和LLM的計算需求都帶來了重大挑戰。隨著3D環境的復雜性和語言模型的大小的增加,可擴展性仍然是一個令人擔憂的問題。為自適應性和計算效率而設計的LLM架構的進步可以顯著拓寬其改進基準對于全面評估和提高3D任務中多模態LLM的能力至關重要。目前的基準范圍有限,特別是在三維推理方面,阻礙了空間推理技能的評估以及三維決策/交互系統的開發。此外,目前使用的指標還不能全面捕捉LLM在3D環境中的功能。制定特定任務的指標,更準確地衡量不同3D任務的性能至關重要。最后,當前場景理解基準的粒度過于簡單,限制了對復雜3D環境理解的深入了解。需要一系列更加多樣化的任務。

改進基準對于全面評估和提高多模態LLM在3D任務中的能力至關重要。目前的基準范圍有限,特別是在三維推理方面,阻礙了空間推理技能的評估以及三維決策/交互系統的開發。此外,目前使用的指標還不能全面捕捉LLM在3D環境中的功能。制定特定任務的指標,更準確地衡量不同3D任務的性能至關重要。最后,當前場景理解基準的粒度過于簡單,限制了對復雜3D環境理解的深入了解。需要一系列更加多樣化的任務。

在使用LLM進行3D理解時,必須考慮安全和道德影響。LLM可能產生幻覺并輸出不準確、不安全的信息,從而導致關鍵3D應用程序中的錯誤決策。此外,LLM往往以不可預測和難以解釋的方式失敗。他們還可能繼承訓練數據中存在的社會偏見,在現實世界的3D場景中進行預測時,對某些群體不利。至關重要的是,在3D環境中謹慎使用LLM,采用策略創建更具包容性的數據集、用于偏見檢測和糾正的強大評估框架,以及最大限度地減少幻覺的機制,確保負責任和公平的結果。

結論

本文對LLM與3D數據的集成進行了深入的探索。該調查系統地回顧了LLM在處理、理解和生成3D數據方面的方法、應用和涌現能力,強調了LLM跨一系列3D任務的變革潛力。從增強三維環境中的空間理解和交互,到推動嵌入式人工智能系統的能力,LLM在推進該領域中發揮著關鍵作用。

關鍵發現包括識別LLM的獨特優勢,如零樣本學習、高級推理和廣泛的世界知識,這些優勢有助于彌合文本信息和空間解釋之間的差距。該論文展示了LLM與3D數據集成的廣泛任務。與LLM一起探索其他3D視覺語言方法,揭示了旨在加深我們對3D世界理解的豐富研究前景。

此外,該調查強調了數據表示、模型可擴展性和計算效率等重大挑戰,表明克服這些障礙對于充分實現LLM在3D應用中的潛力至關重要??傊?,這項調查不僅全面概述了使用LLM的3D任務的現狀,而且為未來的研究方向奠定了基礎。它呼吁開展合作,探索和擴展LLM在理解復雜的3D世界和與之互動方面的能力,為空間智能領域的進一步進步鋪平道路。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2022-04-11 11:37:13

AI研究NLP

2024-11-29 18:37:07

2022-09-30 11:55:36

AI算力

2024-04-23 09:30:07

3D模型

2024-02-20 09:46:00

模型技術

2024-07-10 13:20:45

2020-04-02 14:43:34

Python 程序算法

2024-03-11 09:37:01

模型圖片編輯

2022-02-10 15:15:41

人工智能強化學習谷歌

2024-09-02 09:12:00

場景管理

2024-03-11 10:08:12

駕駛模型

2020-12-03 10:15:09

人工智能深度學習

2024-07-23 09:48:59

2021-03-23 13:49:21

人工智能機器學習

2021-11-10 15:03:17

深度學習算法人工智能

2024-12-25 09:50:00

2025-04-01 09:10:00

2023-07-22 13:30:02

模型視覺

2025-02-10 13:40:00

2024-09-05 13:11:49

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人激情视频在线播放 | 欧美日韩免费一区二区三区 | 超碰免费在线观看 | 久www| 亚洲免费视频一区二区 | 一区精品国产欧美在线 | 欧美激情国产日韩精品一区18 | 亚洲午夜精品在线观看 | 六月成人网 | 亚洲国产成人av好男人在线观看 | 国产日韩欧美一区 | 婷婷色国产偷v国产偷v小说 | 日本成人在线观看网站 | 国产精品一区在线观看 | 久久精品国内 | 九九久久久 | 一级在线免费观看 | 久久久国产一区 | 中文字幕一区二区三区精彩视频 | 色综合视频 | 91操操操 | 99视频在线播放 | 97精品超碰一区二区三区 | 欧美一区二区在线播放 | 求个av网址 | 午夜影院 | 国产精品久久久久久久久久久久久 | 国产乱码精品一区二区三区中文 | 国产精久久久 | 午夜欧美日韩 | 国产欧美一区二区三区在线看 | 在线视频亚洲 | 亚洲在线中文字幕 | 午夜精品久久久久久久久久久久久 | 成人福利片 | 国产在线小视频 | 日本a v在线播放 | 中文字幕成人在线 | 色综合欧美 | 久热久| 狠狠亚洲 |