出手就是SOTA!擴散模型殺入部分監督多任務預測領域!
文章鏈接:??https://arxiv.org/pdf/2403.13304??
當前的感知模型嚴重依賴資源密集型數據集,促使我們需要創新性的解決方案。利用最新的擴散模型和合成數據,通過從各種標注構建圖像輸入,對下游任務非常有益。盡管先前的方法分別解決了生成和感知模型的問題,但DetDiffusion首次將兩者結合起來,解決了為感知模型生成有效數據的挑戰。
為了增強感知模型與圖像生成的質量,本文引入了感知損失(P.A.損失),通過分割改進了質量和可控性。為了提高特定感知模型的性能,DetDiffusion通過提取和利用在生成過程中perception-aware屬性(P.A.屬性)來定制數據增強。目標檢測任務的實驗結果突顯了DetDiffusion的優越性能,在布局引導生成方面建立了新的SOTA。此外,來自DetDiffusion的圖像合成可以有效地增強訓練數據,顯著提高了下游檢測性能。
效果先睹為快
介紹
當前感知模型的有效性嚴重依賴于廣泛且準確標注的數據集。然而,獲取這樣的數據集通常需要大量資源。最近生成模型的進展,特別是擴散模型,使得生成高質量圖像成為可能,從而為構建合成數據集鋪平了道路。通過提供諸如類別標簽、分割圖和目標邊界框等標注,已經證明了用于生成模型的合成數據對提高下游任務(例如分類、目標檢測和分割)的性能是有用的。
盡管大多數方法專注于分別改進生成模型或感知模型,但生成模型和感知模型之間的協同作用需要更緊密的整合,以相互增強生成和感知能力。在感知模型中,挑戰在于有效的數據生成或增強,這是一個以前主要從數據角度(例如OoD泛化和域自適應)探討的話題。其在一般情況下提高感知模型性能的潛力尚未充分探索。相反,生成模型研究一直致力于改進模型以獲得更好的輸出質量和可控性。然而,必須認識到感知模型也可以提供有價值的額外見解,以幫助生成模型實現更好的控制能力。生成模型和感知模型之間的這種協同作用為進步提供了一個有前景的途徑,這表明需要更多的整合方法。
作為首個探索這種協同作用的工作,本文提出了一種新穎的感知生成框架,即DetDiffusion,如下圖1所示。
DetDiffusion使生成模型能夠利用來自感知模型的信息,從而增強其進行受控生成的能力。同時,它根據感知模型的能力有針對性地生成數據,從而提高了模型在合成數據上訓練的性能。
具體而言,對于目標檢測任務,基于Stable Diffusion對模型進行微調,利用受控生成技術生成高質量數據,有助于訓練檢測模型。為提高生成質量,創新性地引入了感知損失。通過引入基于UNet的分割模塊,利用中間特征與標簽真值一起監督生成的內容,以增強可控性。
此外,為進一步提高檢測模型的性能,提出從經過訓練的檢測模型中提取和使用目標屬性,然后將這些屬性納入生成模型的訓練中。這種方法能夠生成專門定制的新數據,以產生獨特樣本,從而顯著提高檢測器的性能。
經過實驗證實,DetDiffusion在生成質量方面取得了新的SOTA,在COCO-Stuff數據集上達到了31.2的mAP。它顯著增強了檢測器的訓練,通過在訓練中策略性地使用Perception-Aware屬性(P.A. Attr),將mAP提高了0.9 mAP。這在很大程度上是因為DetDiffusion在解決長尾數據生成挑戰方面的精細控制。這些進展突顯了DetDiffusion在技術上的優越性,并標志著在受控圖像生成方面的重大進步,特別是在精確檢測屬性至關重要的情況下。
本文的主要貢獻包括三個方面:
- 提出了DetDiffusion,這是第一個旨在探索感知模型和生成模型之間協同作用的框架。
- 為提高生成質量,提出了一種基于分割和目標mask的感知損失。為了進一步提高合成數據在感知模型中的有效性,并在生成過程中引入了目標屬性。
- 對目標檢測任務的廣泛實驗表明,DetDiffusion不僅在COCO數據集上的布局引導生成方面取得了新的SOTA,還有效地提升了下游檢測器的性能。
相關工作
擴散模型。擴散模型作為一種生成模型,經過從圖像分布到高斯噪聲分布的前向變換后,被訓練學習反向去噪過程。這些模型可以采用馬爾可夫過程或非馬爾可夫過程。由于它們在處理各種形式的控制和多種條件方面的適應性和能力,擴散模型已經應用于各種條件生成任務,例如圖像變異、文本到圖像生成、像素級別的受控生成等。這些模型的一個顯著變種是潛在擴散模型(LDM)。與傳統的擴散模型不同,LDM在潛在空間中進行擴散過程,提高了模型的效率。我們的感知數據生成框架基于LDM。然而,關注于生成模型和感知模型之間的協同作用,提出了一些設計來同時改善生成質量和可控性,以及在下游任務中的性能。
布局到圖像(L2I)生成。本文的方法著重于將高層次的圖形布局轉換成逼真的圖像。在這個背景下,LAMA實現了一個局部感知mask適應模塊,以改進圖像生成過程中的目標mask處理。Taming顯示,一個相對簡單的模型可以通過在潛在空間中訓練超越更復雜的前輩模型。更近期的發展包括GLIGEN,它將額外的門控自注意力層整合到現有的擴散模型中,以增強布局控制;LayoutDiffuse則采用了為邊界框量身定制的創新布局注意力模塊。生成模型與GeoDiffusion和Geom-Erasing具有類似的架構,而DetDiffusion側重于生成和感知之間的協同作用,并獨特地提供了以下兩點:
- 利用分割頭信息的新型Perception-Aware損失(P.A. loss);
- 一種新穎的目標屬性機制(P.A. Attr),有助于目標檢測器的訓練。
感知模型的數據生成。在一些L2I方法中,合成數據對提升目標檢測任務性能的效用得到了證明,例如GeoDiffusion。類似地,MagicDrive提出生成的圖像有助于3D感知,而TrackDiffusion為多目標跟蹤生成數據。然而,它們沒有探索使用感知模型增強生成,或為特定檢測器量身定制數據。除了可控生成之外,一些工作通過從生成特征中提取標注將生成器轉換為感知模型。DatasetDM使用了類似Mask2Former風格的P-decoder與Stable Diffusion,而Li等人開發了一個用于開放詞匯分割的融合模塊。盡管這些技術能夠產生帶有標注的數據,但它們受限于對基于文本的生成的依賴、對預訓練擴散模型的限制以及與專門模型(如SAM)相比的性能較低。
方法
本文的目標是從感知的角度提高生成質量,并促進下游的感知任務。在解決這一具有挑戰性的問題中,設計適當而強有力的監督非常重要,提議將易于訪問但以前被忽視的感知信息,即Perception-Aware屬性(P.A. Attr)和損失(P.A. loss),集成到生成框架中,以促進感知模型和生成模型之間的信息交互。首先介紹了預備知識,并詳細展開了Perception-Aware屬性(P.A. Attr),該屬性通過目標檢測器生成,并設計為特殊的標注以輔助擴散模型。再介紹了一個量身定制的Perception-Aware損失(P.A. loss)。整體架構如下圖2所示。
預備知識
擴散模型(DMs)已經成為突出的文本到圖像生成模型,以其在生成逼真圖像方面的有效性而聞名。一個顯著的變體,潛在擴散模型(LDM),將標準DMs的擴散過程創新地轉移到潛在空間中。這種轉變是重要的,因為LDMs表現出了保持原始模型質量和靈活性的能力,但計算資源需求大大降低。這種效率的提升主要歸功于潛在空間維度的降低,這有助于更快的訓練時間,而不影響模型的生成能力。
這個方程代表了原始噪聲ε和模型預測的噪聲之間的均方誤差,概括了Stable Diffusion模型的核心學習機制。
作為條件輸入的Perception-Aware屬性
為了增強檢測模型的性能,本研究引入了一種圍繞生成Perception-Aware逼真圖像的新方法。該方法涉及一個兩步過程:首先,從預訓練的檢測器中提取目標屬性。這些屬性封裝了對準確目標檢測至關重要的關鍵視覺特征。隨后,將提取的屬性集成到生成模型的訓練方案中。這種集成旨在確保生成的圖像不僅表現出很高的逼真度,而且與對于有效檢測至關重要的感知標準密切對齊。通過這樣做,生成模型被定制為生成更有助于訓練穩健檢測器的圖像,可能會顯著提高檢測準確性和可靠性。
此外,與現有方法[26, 52]使用標題作為文本提示相比,我們設計了一個有效的文本提示,配備了多對Perception-Aware屬性。具體而言,提示是“一張帶有{目標}的圖像”,其中目標是,m是真實邊界框的數量。這個全面的屬性集和有效的提示旨在概括對每個目標特征的更全面理解,可能為感知提供更豐富的描述。
Perception-Aware損失作為監督
在訓練擴散生成模型時,目標是最小化預測圖像(或噪聲)與其真值之間的重構距離。傳統的生成方法主要利用L1或L2損失來實現這一目的。然而,這些標準損失函數通常不能產生具有高分辨率細節和對圖像屬性具有精確控制的圖像。為了解決這一限制,提出了一種新穎的Perception-Aware損失(P.A. loss)。該損失函數的構建是為了利用豐富的視覺特征,從而促進更加細致的圖像重構。
目標函數。最終,目標函數將Perception-Aware損失與Latent Diffusion Model(LDM)的基本損失函數相結合。這個整合在數學上表示為:
為了這個模型,λ 被設定為 0.01,確保了對Perception-Aware組件的平衡整合,同時保持了 LDM 損失函數的主要結構和目標。這種校準的方法允許對優化進行細微調整,充分利用了兩種損失的優勢,從而提高了模型生成高質量、與感知對齊的圖像的性能。
實驗
實驗設置
數據集。采用了廣泛認可的 COCO-Thing-Stuff 基準數據集用于 L2I 任務,該數據集包括 118,287 張訓練圖像和 5,000 張驗證圖像。每張圖像都標注有 80 個目標類別和 91 個材料類別的邊界框和像素級分割mask。與先前的研究 [7, 9, 52] 保持一致,忽略了屬于人群或占據圖像面積不到 2% 的目標。
實現細節。從 Stable Diffusion v1.5 的checkpoint微調 DetDiffusion。將位置tokens引入文本編碼器,并使用二維正弦-余弦嵌入初始化位置tokens的嵌入矩陣。在固定 VQ-VAE 的情況下,微調文本編碼器的所有參數,并使用余弦學習率調度的 AdamW 優化器,學習率為 。在前 3000 步采用線性預熱。文本提示被替換為空文本,以 10% 的概率進行無條件生成。模型在 8×32GB GPU 上進行訓練,批量大小為 32,大約需要 20 小時進行 60 個時期的訓練。我們使用 DPM-Solver 調度程序進行 50 步采樣,CFG 為 3.5。
屬性應用策略。在訓練過程完成后,可以靈活地在生成過程中應用Perception-Aware屬性(P.A. Attr)。為了簡單而有效的驗證目的,我們在下圖3中采用了三種屬性策略:
主要結果
L2I 生成要求生成的目標盡可能與原始圖像一致,同時確保高質量的圖像生成。因此,首先全面分析保真度實驗。此外,生成目標檢測數據的一個重要目的是其適用于下游目標檢測。接下來展示了可訓練性實驗。
保真度
設置。為了評估保真度,在 COCO-Thing-Stuff 驗證集上利用兩個主要指標。Fréchet Inception 距離(FID)評估生成圖像的整體視覺質量。它使用 ImageNet 預訓練的 Inception-V3 網絡來測量真實圖像和生成圖像之間特征分布的差異。在 LAMA 中的 YOLO Score使用生成圖像上 80 個目標類別邊界框的平均精度(mAP)。它使用預訓練的 YOLOv4 模型來實現,展示了生成模型中目標檢測的精度。我們的模型在圖像尺寸為 256×256 上進行訓練。與先前的工作一樣,我們利用包含 3 到 8 個目標的圖像,在驗證期間共有 3,097 張圖像。
結果。在 COCO-Thing-Stuff 驗證集上使用了三種屬性策略來評估我們的模型,并將它們與 L2I 任務的最新模型進行了比較,例如 LostGAN、LAMA、TwFA、Frido、LayoutDIffuse、LayoutDiffusion、Reco、GLIGEN、GeoDiffusion 和 ControlNet。
可訓練性
設置。本節探討了使用 DetDiffusion 生成的圖像來訓練目標檢測器的潛在優勢。可訓練性的評估包括使用預先訓練的 L2I 模型從原始標注創建新的合成訓練集。然后,使用原始和合成訓練集來訓練檢測器。
COCO 可訓練性。為了建立可靠的基線,利用 COCO2017 數據集,選擇性地選擇包含 3 到 8 個目標的圖像,以提高合成圖像的質量并保持保真度。該過程產生了一個包含 47,429 張圖像和 210,893 個目標的訓練集。我們的目標是展示 DetDiffusion 可以為下游任務帶來的改進,同時保持不同模型比較的固定標注。為了提高訓練效率并專注于數據質量對訓練的影響的評估,采用了修改后的 1× 計劃,將訓練周期縮短為 6 個epoch。DetDiffusion 在調整到 800×456 的圖像上進行訓練,這是其支持的最大分辨率,以解決與 COCO 的分辨率差異。
結果。如下表2 所示,ReCO、GeoDiffusion和我們的三種策略都有助于下游檢測器的訓練,通過這些策略生成的合成圖像對檢測器的提升更為顯著(超過 35.0 mAP)。此外,與“origin”策略相比,“hard”策略在所有檢測器指標上展現了最大的改進。這歸因于“hard”策略通過生成更具挑戰性的實例,這些實例通常代表真實數據集中的長尾數據,或者作為更強大的數據增強形式。總的來說,我們模型生成的數據顯著增強了下游檢測器的訓練,超過了所有其他 L2I 模型,并表明通過感知獲得的信息可以進一步有益于下游訓練。
為了驗證在相同的訓練成本下的訓練效果,繪制了訓練損失曲線和驗證 mAP 曲線,分別在 圖6a 和 6b 中。我們的 DetDiffusion 在整個訓練過程中表現最佳。
在下表 3 中展示了更多關于可訓練性的結果,重點關注 COCO 數據集中較少出現的類別,如停車計時器、剪刀和微波爐,每個類別在數據集中的占比都不到 0.2%。可以看到,我們的 hard 策略在所有類別上都取得了收益,尤其是長尾類別方面取得了顯著的改進。
定性結果
保真度。 下圖4展示了驗證我們模型在圖像生成中的忠實度和準確性的示例。LayoutDiffusion的混亂結果源于其額外的控制模塊與擴散過程的沖突。依賴高質量字幕的ReCo經常遭受質量降低和遺漏細節的困擾。GLlGEN和ControlNet,盡管輸出質量很高,但缺乏精確的目標監督,導致細節不足和目標數量不穩定。我們對P.A.損失和P.A.屬性的實現增強了目標質量,確保了一致的數量和受控的生成,如與P.A.屬性對齊的生成目標數量所反映的那樣。
簡單與困難。 在下圖5中,展示了perception-aware attribute(P.A. Attr)的選擇,比較了“簡單”和“困難”的實例。通過大象、馬、顯示器和鍵盤等示例來說明“簡單”圖像,這些圖像著重展示了內在的目標特征,確保了清晰度和缺乏噪音。相反,“困難”示例,如帶長牙的大象、馬鞍上的馬、昏暗的顯示器和反光的鼠標,引入了額外的元素,通過遮擋、光照和其他復雜性引入噪音。這些屬性使得目標識別更具挑戰性。值得注意的是,既有明顯可區分的“簡單”和“困難”情況,也有微妙不同的情況,突顯了對檢測過程的微妙影響。這表明了在沒有先驗知識的情況下識別具有挑戰性的例子的重要性。有關更多示例,請參閱附錄D。
消融研究
模型組件。 按順序將兩個模塊集成到基線模型中,以評估我們模型的關鍵元素。為了清楚地展示P.A.損失的效果,所有屬性都被設置為[易]。正如表4所示,添加P.A. Attr顯著增強了圖像的保真度和YOLO Score。這意味著包含感知信息有助于產生更真實、更易識別的圖像。此外,實施P.A.損失,監督中間生成圖像中的潛在特征,顯著提高了模型在圖像生成方面的精度,特別是在位置精度方面。
可訓練性。 進一步對FCOS和ATSS進行實驗。如表5所示,不管是哪種檢測器模型,Det-Diffusion生成的圖像都取得了顯著的改善,這與表2中的結果一致。
檢測器。 探討了兩種廣泛認可的檢測器[1,39],用于在省略使用P.A.損失的情況下獲取P.A. Attr。表6展示了檢測器選擇對P.A. Attr質量的顯著影響,YOLOv4在這方面表現出色。因此,YOLOv4作為保真度的主要檢測器,而Faster R-CNN則用于可訓練性,因為它是訓練后下游檢測器的角色。
結論
本文提出了DetDiffusion,這是一種簡單而有效的架構,利用了生成模型和感知模型之間的內在協同作用。通過將檢測器感知性整合到幾何感知模型中,通過P.A. Attr作為條件輸入和P.A.損失作為監督,Det-Diffusion可以生成針對檢測器定制的圖像,以獲得更好的識別性和可訓練性。
本文轉自 AI生成未來 ,作者:Yibo Wang等
