成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性 原創(chuàng)

發(fā)布于 2025-5-21 06:45
瀏覽
0收藏

摘要 

組合式零樣本學(xué)習(xí)(CZSL)旨在通過利用已知組合來識別未見的狀態(tài) - 對象組合。現(xiàn)有研究基本依賴 CLIP 的跨模態(tài)對齊能力,但往往忽略了其在捕捉細(xì)粒度局部特征方面的局限性,這些局限性源于其架構(gòu)和訓(xùn)練范式。為解決這一問題,我們提出了一種多階段跨模態(tài)交互(MSCI)模型,該模型有效探索和利用 CLIP 視覺編碼器的中間層信息。具體而言,我們設(shè)計(jì)了兩個(gè)自適應(yīng)聚合器,分別從低層視覺特征中提取局部信息和從高層視覺特征中整合全局信息。這些關(guān)鍵信息通過分階段交互機(jī)制逐步融入文本表示,顯著增強(qiáng)了模型對細(xì)粒度局部視覺信息的感知能力。此外,MSCI 根據(jù)不同的組合以及同一組合內(nèi)的不同元素,動態(tài)調(diào)整全局和局部視覺信息之間的注意力權(quán)重,使其能夠靈活適應(yīng)各種場景。在三個(gè)廣泛使用的數(shù)據(jù)集上的實(shí)驗(yàn)充分驗(yàn)證了所提出模型的有效性和優(yōu)越性。數(shù)據(jù)和代碼可在??https://github.com/ltpwy/MSCI??獲取。 

1、引言 

組合式零樣本學(xué)習(xí)(CZSL)[Misra 等人,2017] 旨在策略性地分解和重組已見組合(由狀態(tài)和對象組成,如 “高樓” 或 “綠樹”)的視覺表示,以構(gòu)建新組合類(如 “高樹”)的表示,從而實(shí)現(xiàn)對它們的精確識別。 

在 CZSL 的早期研究中,更多關(guān)注的是如何有效整合和利用現(xiàn)有視覺信息來識別未見類別。一些方法將狀態(tài) - 對象對視為單個(gè)實(shí)體,直接學(xué)習(xí)它們與圖像的兼容性特征表示 [Purushwalkam 等人,2019;Naeem 等人,2021]。此外,研究 [Nagarajan 和 Grauman,2018;Nan 等人,2019] 嘗試通過空間嵌入技術(shù)顯式分離屬性和對象,以優(yōu)化它們的組合過程。然而,由于缺乏統(tǒng)一的特征空間和有效的屬性 - 對象解耦建模,這些方法在跨模態(tài)對齊方面存在困難,顯著限制了模型的性能。 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

圖 1:我們工作的核心思想。通過有效利用視覺編碼器低層特征中豐富的局部細(xì)節(jié),可以增強(qiáng) CLIP 捕捉細(xì)粒度局部信息的能力。

CLIP [Radford 等人,2021] 的發(fā)明有效解決了跨模態(tài)對齊的挑戰(zhàn)。利用大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)和對比學(xué)習(xí)策略,CLIP 展示了強(qiáng)大的跨模態(tài)對齊能力,這導(dǎo)致了許多將 CLIP 應(yīng)用于下游 CZSL 任務(wù)的方法的出現(xiàn)。Zhou 等人 [Zhou 等人,2022] 首次將 CLIP 與提示工程相結(jié)合,提出了一種單路徑聯(lián)合訓(xùn)練范式,其中 CLIP 生成的狀態(tài) - 對象對的文本嵌入被用作參數(shù),并在反向傳播過程中進(jìn)行更新。Nayak 等人 [Nayak 等人,2022] 通過引入可調(diào)節(jié)的詞匯標(biāo)記以組合方式表示原始概念,進(jìn)一步改進(jìn)了這種方法。Huang 等人 [Huang 等人,2024] 提出了一種創(chuàng)新的多路徑范式,訓(xùn)練解耦器來解耦視覺特征,并將解耦后的特征分別與相應(yīng)的提示嵌入進(jìn)行交互。Jing 等人 [Jing 等人,2024] 通過探索相同對象組合和相同狀態(tài)組合之間的內(nèi)部聯(lián)系,加強(qiáng)了狀態(tài)和對象的解耦表示。 

這些方法充分利用了 CLIP 強(qiáng)大的跨模態(tài)對齊能力,取得了顯著的成果。然而,它們普遍忽略了 CLIP 本身的固有局限性。從局部角度來看,基于 Transformer 架構(gòu)的 CLIP 圖像編碼器將整個(gè)圖像壓縮為固定的全局特征向量。為了提高計(jì)算效率和訓(xùn)練速度,模型傾向于關(guān)注全局視覺信息,而對細(xì)粒度的局部細(xì)節(jié)不太敏感。從全局角度來看,CLIP 的對比學(xué)習(xí)目標(biāo)旨在最大化匹配圖像 - 文本對的全局特征之間的相似性,同時(shí)最小化不匹配對的相似性。這種全局優(yōu)化策略優(yōu)先捕捉圖像和文本在語義空間中的整體對齊,而不是對齊細(xì)粒度的局部特征。因此,對于需要精確區(qū)分局部特征的任務(wù),如 CZSL 中狀態(tài) - 對象組合的細(xì)粒度建模,CLIP 的性能往往受到限制。 

因此,為解決上述問題,本文提出了 MSCI,一種用于組合式零樣本圖像分類的多階段跨模態(tài)交互模型。該模型充分利用 CLIP 在跨模態(tài)對齊方面的優(yōu)勢,同時(shí)彌補(bǔ)其在處理細(xì)粒度局部特征方面的不足,如圖 1 所示。與以往僅依賴輸出層特征的 CZSL 模型不同,MSCI 采用兩個(gè)可訓(xùn)練的特征聚合器,分別從低層和高層視覺特征中提取局部視覺信息和全局視覺信息。通過與文本嵌入分階段交互,MSCI 不僅將全局視覺信息整合到文本特征中,還捕捉到常被忽視的有價(jià)值的局部細(xì)節(jié),從而顯著提高了模型識別未見組合的準(zhǔn)確性和泛化能力。 

此外,為了使模型能夠根據(jù)不同的組合以及同一組合內(nèi)的不同元素(即狀態(tài)和對象)動態(tài)調(diào)整對局部和全局視覺信息的關(guān)注,我們提出了一個(gè)融合模塊來調(diào)節(jié)局部和全局視覺特征對最終文本嵌入的相對影響。這種機(jī)制極大地增強(qiáng)了模型處理復(fù)雜任務(wù)的能力,并提高了其對廣泛場景的適應(yīng)性。 

本文的貢獻(xiàn)總結(jié)如下: 

?我們首次強(qiáng)調(diào)了 CLIP 由于其架構(gòu)和訓(xùn)練范式,在 CZSL 任務(wù)中對局部特征感知的固有局限性,并提出通過有效利用其視覺編碼器的中間層信息來解決這一問題。 

?我們提出了用于組合式零樣本學(xué)習(xí)的 MSCI 模型。通過分階段的特征融合和交互,我們逐步增強(qiáng)文本嵌入、局部視覺信息和全局視覺信息之間的關(guān)系,確保它們在跨模態(tài)任務(wù)中的協(xié)同交互。 

?我們通過實(shí)驗(yàn)驗(yàn)證了所提出模型的有效性,結(jié)果表明,在開放世界和封閉世界設(shè)置下,該模型在三個(gè)廣泛使用的數(shù)據(jù)集上的大多數(shù)關(guān)鍵指標(biāo)上均實(shí)現(xiàn)了最先進(jìn)的性能。 

2、相關(guān)工作 

2.1 組合式零樣本學(xué)習(xí) 

CZSL 是零樣本學(xué)習(xí)的一種特殊形式,不依賴任何輔助信息。其核心目標(biāo)是通過解耦和重組視覺特征,實(shí)現(xiàn)從已知組合到未見組合的泛化。當(dāng)前的 CZSL 模型大致可分為兩類:基于 CLIP 的模型和非基于 CLIP 的模型。 

在基于 CLIP 的 CZSL 模型中,Zhou 等人 [Zhou 等人,2022] 首次提出將提示工程與預(yù)訓(xùn)練視覺語言模型(VLM)相結(jié)合,以解決為下游任務(wù)設(shè)計(jì)提示時(shí)的效率問題。通過學(xué)習(xí)可調(diào)節(jié)的上下文詞向量,他們實(shí)現(xiàn)了提示句子的自動生成,有效減輕了對特定任務(wù)提示設(shè)計(jì)的依賴。為解決 VLM 在下游 CZSL 任務(wù)中的局限性,Nayak 等人 [Nayak 等人,2022] 將定義類別的屬性和對象標(biāo)記視為可學(xué)習(xí)參數(shù),通過提示的多種組合對其進(jìn)行優(yōu)化。Xu 等人 [Xu 等人,2024a] 進(jìn)一步將對象和屬性之間的組合關(guān)系建模為圖結(jié)構(gòu),將屬性和對象標(biāo)簽視為圖節(jié)點(diǎn),并利用圖神經(jīng)網(wǎng)絡(luò)(GNNs)[Scarselli 等人,2008;Du 等人,2021] 來更新和優(yōu)化軟提示表示。 

特別是,Huang 等人 [Huang 等人,2024] 將單路徑范式擴(kuò)展到多路徑框架,為狀態(tài)、對象及其組合建立獨(dú)立的識別分支。他們還引入了跨模態(tài)對齊模塊,以更好地將提示表示與當(dāng)前視覺內(nèi)容對齊。然而,這種方法僅關(guān)注最終層視覺特征與文本之間的交互,導(dǎo)致視覺編碼器前向傳播過程中大量局部信息的丟失。在多路徑范式的基礎(chǔ)上,Jing 等人 [Jing 等人,2024] 通過構(gòu)建相關(guān)樣本數(shù)據(jù)庫,進(jìn)一步增強(qiáng)了視覺特征的解耦。 

盡管這些方法在將 CLIP 的跨模態(tài)對齊能力適應(yīng) CZSL 任務(wù)方面取得了顯著進(jìn)展,但它們往往忽略了 CLIP 在其架構(gòu)和對比學(xué)習(xí)訓(xùn)練范式中的固有局限性,特別是其對細(xì)粒度局部特征的較弱敏感性。相比之下,所提出的 MSCI 模型直接解決了這一關(guān)鍵局限性,為 CZSL 任務(wù)提供了更穩(wěn)健和更高性能的解決方案。 

2.2 多層特征聚合 

近年來,針對下游任務(wù)對 Transformer 中間層信息的探索在計(jì)算機(jī)視覺領(lǐng)域引起了廣泛關(guān)注。通過利用中間層包含的多層次和多尺度特征信息,這種方法有效解決了傳統(tǒng)深度學(xué)習(xí)模型僅依賴高層特征的局限性。例如,Tang 等人 [Tang 等人,2023] 利用低層特征的邊界特征和高層特征的語義信息,將其應(yīng)用于醫(yī)學(xué)圖像分割任務(wù)。類似地,Liu 等人 [Liu 等人,2024] 通過將多層特征學(xué)習(xí)和編碼模塊與 Transformer 聯(lián)合訓(xùn)練,增強(qiáng)了多尺度局部細(xì)節(jié)和結(jié)構(gòu)關(guān)系的捕捉,在惡意網(wǎng)頁檢測中取得了出色性能。此外,這一思想已擴(kuò)展到其他領(lǐng)域 [Li 等人,2024b;Miao 等人,2025],如跨模態(tài)檢索 [Yang 等人,2023;Li 等人,2024a] 和視覺定位 [Wang 等人,2022;Xu 等人,2024b],展示了其廣泛的適用性。 

3、方法論 

本節(jié)首先對 CZSL 任務(wù)進(jìn)行形式化定義,這是分析 CLIP 在處理下游 CZSL 任務(wù)時(shí)固有局限性的基礎(chǔ)。在此分析的基礎(chǔ)上,我們詳細(xì)介紹了我們提出的模型。該模型的核心在于聚合 CLIP 視覺編碼器的多層信息,并與文本嵌入進(jìn)行分階段跨模態(tài)交互。這種設(shè)計(jì)使模型能夠精確地將全局視覺信息與局部視覺特征相結(jié)合,促進(jìn)提示表示的自適應(yīng)調(diào)整。通過這樣做,我們的模型有效解決了 CLIP 在感知細(xì)粒度局部特征方面的局限性。所提出模型的總體框架如圖 2 所示。 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

3.1 預(yù)備知識 

問題表述 

給定一個(gè)狀態(tài)集S = \{s_0, s_1, ..., s_n\}和一個(gè)對象集O = \{o_0, o_1, ..., o_m\},可以通過笛卡爾積構(gòu)建一個(gè)標(biāo)簽空間C,表示為C = S × O。從C中提取兩個(gè)不相交的子集:已見類集C_s和未見類集C_u,滿足C_s ∪ C_u ? C且C_s ∩ C_u = ?。在訓(xùn)練階段,CZSL 的任務(wù)是學(xué)習(xí)從輸入圖像空間X到C_s的判別映射P: X →C_s。在測試階段,給定一幅圖像I,任務(wù)是使用學(xué)習(xí)到的判別映射P從測試類集C_{test}中預(yù)測一個(gè)類標(biāo)簽c = (s, o): 

根據(jù)搜索空間的不同,CZSL 任務(wù)在兩種設(shè)置下配置:在封閉世界設(shè)置中,僅考慮預(yù)定義的組合空間,即C_{test} = C_s ∪ C_u;在更具挑戰(zhàn)性的開放世界設(shè)置中,搜索空間包括狀態(tài)對象的所有可能對,即C_{test} = C。 

CLIP 的局限性 

CLIP 在局部特征感知方面的局限性主要?dú)w因于兩個(gè)因素:其視覺編碼器架構(gòu)的設(shè)計(jì)和基于對比學(xué)習(xí)的訓(xùn)練范式。CLIP 的視覺編碼器基于 Transformer 架構(gòu),該架構(gòu)通過其全局注意力機(jī)制在建模長程特征依賴方面表現(xiàn)出色,但代價(jià)是犧牲了局部細(xì)節(jié)。這種局限性在捕捉邊緣和紋理等低層特征時(shí)表現(xiàn)得尤為明顯。此外,CLIP 的訓(xùn)練目標(biāo)旨在通過對比學(xué)習(xí)最大化圖像和文本之間的全局語義對齊,導(dǎo)致模型優(yōu)先捕捉一般語義信息,而忽略更精細(xì)的局部細(xì)節(jié)。此外,對比學(xué)習(xí)范式要求模型快速區(qū)分圖像間的顯著特征,進(jìn)一步降低了其對細(xì)粒度局部特征的敏感性。 

特征編碼 

我們使用 CLIP 圖像編碼器作為視覺主干,其基于 ViT-L/14 架構(gòu)。對于圖像集X中的輸入圖像I,我們從輸出層提取 [CLS] 標(biāo)記I_{cls}作為其嵌入表示。在此基礎(chǔ)上,我們遵循先前工作的三路徑范式,其中圖像嵌入I_{cls}作為輸入到三個(gè)獨(dú)立的多層感知機(jī)(MLPs)[Kruse 等人,2022],以生成組合、狀態(tài)和對象的視覺表示,分別表示為V_{com}、V_{state}、V_{obj}。在文本層面,我們設(shè)計(jì)了以下形式的軟提示模板:“a photo of [state] [object]”、“a photo of [state] object” 和 “a photo of [object]”,分別用于構(gòu)建所有候選組合、狀態(tài)和對象的提示。這些提示隨后被輸入到 CLIP 文本編碼器中,生成提示嵌入t_{com}、t_{state}和t_{obj}。它們的維度分別為[N_{com}, d]、[N_{state}, d]和[N_{obj}, d],其中N_{com}、N_{state}和N_{obj}分別表示所有候選組合、狀態(tài)和對象的數(shù)量,d表示嵌入維度。我們將 [state] 和 [object] 的嵌入視為可訓(xùn)練參數(shù)進(jìn)行微調(diào)。 

3.2 多層信息聚合 

在 CLIP 視覺編碼器采用的 ViT 架構(gòu)中,不同層次的特征表現(xiàn)出獨(dú)特的信息特征:低層包含圖像豐富的局部細(xì)節(jié)信息,而高層則傾向于整合全局結(jié)構(gòu)特征。為了有效利用層間信息,我們設(shè)計(jì)了一個(gè)自適應(yīng)特征聚合模塊,如圖 3 所示。 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

圖 3:低層特征聚合器示意圖。 

假設(shè)第i層的視覺特征表示為F_i,維度為[b, l, d],其中b是圖像集X中的圖像數(shù)量,l表示卷積后生成的補(bǔ)丁數(shù)(包括 [CLS] 標(biāo)記)。我們從 CLIP 視覺編碼器的前N層和后M層提取特征,然后分別沿特征維度拼接,形成更豐富的特征表示。拼接后的特征可以表示為: 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

其中S是 CLIP 視覺編碼器中編碼器塊的總數(shù),F(xiàn)_{\text{first\_n}}和F_{\text{last\_m}}分別表示前N層和后M層特征的拼接,維度分別為[b, l, N×d]和[b, l, M×d]。拼接后的特征首先經(jīng)過線性變換,將其從拼接維度(N(M)×d)映射到目標(biāo)特征維度d,然后進(jìn)行層歸一化以確保訓(xùn)練穩(wěn)定性。接著應(yīng)用 ReLU 激活函數(shù)引入非線性,增強(qiáng)模型捕捉復(fù)雜特征關(guān)系的能力。最后,使用 Dropout 層提高模型的泛化能力。最終融合的低層和高層特征F_{\text{low}}和F_{\text{high}}可以表示為: 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

其中W∈\mathbb{R}^{d×(N(M)×d)}是線性變換的權(quán)重矩陣,b ∈ \mathbb{R}^d是偏置項(xiàng),\mu和\sigma是全連接層輸出特征的均值和標(biāo)準(zhǔn)差,\mathcal{D}(\cdot, p)表示以p為 dropout 概率的 Dropout 操作。 

3.3 多階段跨模態(tài)交互 

融合的低層特征F_{\text{low}}捕捉了豐富的局部視覺細(xì)節(jié),而融合的高層特征F_{\text{high}}整合了更抽象的全局視覺信息。它們與來自任何分支的提示嵌入t(即t可以是t_{com}、t_{state}或t_{obj}中的任意一個(gè))分階段交互。 

在第一階段,提示嵌入t與融合的低層特征F_{\text{low}}進(jìn)行跨模態(tài)交互,以有效地將低層特征中包含的豐富局部細(xì)節(jié)整合到提示嵌入中。這種交互通過結(jié)合殘差連接的跨注意力層實(shí)現(xiàn),如公式所示: 

其中t'表示跨模態(tài)交互后的更新提示嵌入,d是注意力的維度。 

此外,我們采用 Huang 等人 [Huang et al., 2024] 提出的前饋網(wǎng)絡(luò)(FFN)設(shè)計(jì),通過多層感知機(jī)(MLP)實(shí)現(xiàn)。該網(wǎng)絡(luò)旨在優(yōu)化交互后的特征表示,并通過結(jié)合殘差連接生成輸出,如公式所示: 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

其中t_1表示經(jīng)過 FFN 后的更新提示嵌入。第一階段后,提示嵌入整合了來自低層特征的豐富局部視覺信息。 

第二階段采用與第一階段類似的交互模式,旨在進(jìn)一步將高層特征中包含的更抽象的全局視覺信息整合到提示嵌入中。我們將第一階段獲得的提示嵌入t_1和融合的高層視覺特征F_{\text{high}}作為輸入,通過跨注意力層和前饋網(wǎng)絡(luò)進(jìn)行處理,導(dǎo)致提示嵌入的進(jìn)一步更新。該過程表示如下: 

與t_1相比,t_2進(jìn)一步整合了高層視覺特征中包含的抽象全局視覺信息。為了根據(jù)不同的組合以及同一組合的不同提示分支,動態(tài)為局部和全局視覺信息分配注意力權(quán)重,我們引入兩個(gè)可學(xué)習(xí)參數(shù)\lambda_1和\lambda_2,以調(diào)節(jié)t_1和t_2在最終提示嵌入中的權(quán)重。最終提示嵌入表示如下: 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

3.4 訓(xùn)練與推理 

我們遵循多路徑范式的標(biāo)準(zhǔn)訓(xùn)練和推理過程。假設(shè)初始提示嵌入t_{com}、t_{state}和t_{obj}通過多階段交互轉(zhuǎn)換為T_{com}、T_{state}和T_{obj}。將圖像I分配給組合標(biāo)簽c(s, o)、狀態(tài)標(biāo)簽s和對象標(biāo)簽o的概率可以表示為: 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

其中\(zhòng)tau ∈ \mathbb{R}表示預(yù)訓(xùn)練溫度參數(shù),T_{com}^c、T_{state}^s和T_{obj}^o分別表示組合c、狀態(tài)s和對象o的提示嵌入。使用交叉熵將每個(gè)分支預(yù)測的概率與獨(dú)熱編碼標(biāo)簽進(jìn)行比較,以計(jì)算損失。總訓(xùn)練損失隨后作為各分支損失的加權(quán)和獲得,公式如下: 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

在推理階段,對于輸入圖像A,假設(shè)C(s_i, o_j)是搜索空間S中的任意組合,模型根據(jù)以下公式預(yù)測最可能的組合\hat{c}: 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

其中\(zhòng)beta是預(yù)定義參數(shù),用于控制推理過程中各分支結(jié)果的比例。 

4、實(shí)驗(yàn) 

4.1 實(shí)驗(yàn)設(shè)置 

數(shù)據(jù)集 

我們在三個(gè)廣泛使用的組合式零樣本學(xué)習(xí)數(shù)據(jù)集上評估了所提出的 MSCI 的性能:MIT-States [Isola 等人,2015]、UT-Zappos [Yu 和 Grauman,2014] 和 C-GQA [Naeem 等人,2021]。MIT-States 數(shù)據(jù)集包含 53,753 張圖像,涉及 245 個(gè)對象類別和 115 個(gè)狀態(tài)類別。UT-Zappos 數(shù)據(jù)集包括 50,025 張圖像,涵蓋 12 個(gè)對象類別和 16 個(gè)狀態(tài)類別。C-GQA 基于 GQA 數(shù)據(jù)集 [Hudson 和 Manning,2019] 構(gòu)建,包含 870 個(gè)對象類別和 453 個(gè)狀態(tài)類別。與先前研究一致,我們采用 Purushwalkam 等人 [Purushwalkam et al., 2019] 提出的數(shù)據(jù)集劃分方法,具體細(xì)節(jié)見表 1。 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

表 1:數(shù)據(jù)集統(tǒng)計(jì)信息 

評估指標(biāo) 

我們遵循先前研究 [Nayak 等人,2022] 采用的標(biāo)準(zhǔn)評估協(xié)議,在封閉世界和開放世界設(shè)置下全面評估模型的性能。具體而言,評估指標(biāo)包括最佳已見準(zhǔn)確率(S)、最佳未見準(zhǔn)確率(U)、最佳調(diào)和均值(HM)和已見 - 未見準(zhǔn)確率曲線下面積(AUC)。其中,S 衡量當(dāng)校準(zhǔn)偏差設(shè)置為 +∞時(shí)模型對已見組合的最高準(zhǔn)確率,而 U 反映當(dāng)偏差設(shè)置為 -∞時(shí)對未見組合的最高準(zhǔn)確率。HM 表示模型在已見和未見類別預(yù)測準(zhǔn)確率之間實(shí)現(xiàn)最佳平衡的點(diǎn)。AUC 通過動態(tài)調(diào)整偏差范圍從 -∞到 +∞計(jì)算,代表已見與未見準(zhǔn)確率曲線下的面積。因此,AUC 是最能反映模型整體性能的核心指標(biāo)。 

實(shí)現(xiàn)細(xì)節(jié) 

我們基于 PyTorch 實(shí)現(xiàn)了所提出的模型,使用具有 ViT-L/14 架構(gòu)的 CLIP 主干,通過低秩適應(yīng)(LoRA)[Hu 等人,2021] 進(jìn)行微調(diào)。所有實(shí)驗(yàn)均在 Nvidia H20 GPU 上進(jìn)行。訓(xùn)練期間,我們使用 Adam 優(yōu)化器,結(jié)合學(xué)習(xí)率衰減和權(quán)重衰減策略。為了簡化模型復(fù)雜度,在三個(gè)數(shù)據(jù)集上,我們對局部特征交互和全局特征融合均僅使用一個(gè)跨注意力層,具有 12 個(gè)注意力頭, dropout 率設(shè)置為 0.1。控制各分支推理權(quán)重的參數(shù)\beta,在封閉世界設(shè)置中,MIT-States、UT-Zappos 和 C-GQA 分別設(shè)置為 0.1、1.0 和 0.1,在開放世界設(shè)置中分別設(shè)置為 0.3、1.0 和 0.3。此外,在開放世界設(shè)置中,我們引入可行性分?jǐn)?shù)作為閾值,以消除不合理的組合,有效減少搜索空間。具體閾值根據(jù)模型在驗(yàn)證集上的性能確定。 

4.2 主要結(jié)果 

我們將 MSCI 與使用相同主干(ViT-L/14)的其他 CZSL 模型進(jìn)行了比較,包括基于 CLIP 的模型和非基于 CLIP 的模型。封閉世界設(shè)置的結(jié)果見表 2,開放世界設(shè)置的結(jié)果見表 3。 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

在封閉世界設(shè)置中,MSCI 在所有三個(gè)數(shù)據(jù)集上均實(shí)現(xiàn)了最佳的 AUC 和 HM 指標(biāo),與次優(yōu)模型相比,MIT-States、UT-Zappos 和 C-GQA 的 AUC 分別提高了 1.8%、9.8% 和 14.5%。這些提升百分比與數(shù)據(jù)集中包含的細(xì)粒度信息水平密切相關(guān):與 MIT-States 相比,UT-Zappos 和 C-GQA 包含更豐富的細(xì)粒度細(xì)節(jié),導(dǎo)致性能提升更為顯著。 

在開放世界設(shè)置中,MSCI 繼續(xù)表現(xiàn)出卓越性能,UT-Zappos 和 C-GQA 的 AUC 分別提高了 13.0% 和 40.7%。開放世界設(shè)置中獲得的更大性能提升可歸因于搜索空間的擴(kuò)大,其中判別性局部信息在推理過程中變得越來越關(guān)鍵。MSCI 有效利用了這些信息,保持了強(qiáng)大的泛化能力和優(yōu)越性能。 

4.3 消融實(shí)驗(yàn) 

為了進(jìn)一步驗(yàn)證 MSCI 中每個(gè)模塊的有效性,我們在 UT-Zappos 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。結(jié)果見表 4。 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

表 4:UT-Zappos 封閉世界設(shè)置下的消融實(shí)驗(yàn)結(jié)果 


聚合器消融 

為了驗(yàn)證多層特征聚合模塊的有效性,我們將其替換為以下兩種替代方法:首先,使用視覺編碼器第一層和最后一層的特征分別在第一階段和第二階段進(jìn)行跨模態(tài)交互(w/o Agg a)。其次,使用前 N 層特征的平均值和后 N 層特征的平均值進(jìn)行分階段跨模態(tài)交互(w/o Agg b)。實(shí)驗(yàn)結(jié)果表明,與上述兩種方法相比,所提出的自適應(yīng)融合模塊在保持信息豐富性的同時(shí)實(shí)現(xiàn)了更好的聚合效果。 

多階段跨模態(tài)交互消融 

為了驗(yàn)證多階段跨模態(tài)交互模塊的有效性,我們在兩個(gè)獨(dú)立的消融場景中分別移除了第一階段(w/o Ms a)和第二階段(w/o Ms b)的交互模塊。實(shí)驗(yàn)結(jié)果表明,與單階段跨模態(tài)交互相比,分階段跨模態(tài)交互能夠?qū)⑷忠曈X信息融入提示嵌入,并進(jìn)一步整合豐富的局部視覺信息,從而取得更好的結(jié)果。 

動態(tài)融合消融 

為了驗(yàn)證所提出的融合方法的有效性,我們將其替換為直接使用多階段跨模態(tài)交互模塊的輸出(即移除公式 9 中的\lambda_1 t_1項(xiàng))(w/o Df)。根據(jù)實(shí)驗(yàn)結(jié)果,與單一融合方法相比,我們提出的融合方法可以根據(jù)不同的組合以及同一組合的不同提示分支,動態(tài)調(diào)整對全局和局部視覺信息的關(guān)注,實(shí)現(xiàn)了更優(yōu)的性能。 

4.4 定性結(jié)果 

在 MSCI 框架內(nèi),我們根據(jù)每個(gè)數(shù)據(jù)集的復(fù)雜度調(diào)整所選層數(shù)。對于相對簡單的 UT-Zappos 數(shù)據(jù)集,選擇前三層和后三層的特征進(jìn)行聚合已被證明可以優(yōu)化模型性能。相比之下,對于結(jié)構(gòu)更復(fù)雜的 MIT-States 和 C-GQA 數(shù)據(jù)集,處理前四層和后四層的特征更有效,以確保最佳結(jié)果。每個(gè)數(shù)據(jù)集的 AUC 指標(biāo)隨所選層數(shù) N 的變化如圖 4 所示。值得注意的是,廣泛的評估表明,將 M 和 N 設(shè)置為相同值可產(chǎn)生更好的性能;因此,默認(rèn)采用此配置。 


MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)


此外,我們從三個(gè)數(shù)據(jù)集中各選一個(gè)典型案例進(jìn)行定性分析,如圖 5 所示。通過兩個(gè)成功案例可以直觀地觀察到,與單階段交互模型相比,MSCI 的多階段交互能夠更有效和全面地整合跨模態(tài)信息,展示出顯著優(yōu)勢。然而,在失敗案例中,我們觀察到某些干擾項(xiàng)與實(shí)際物品高度相似,導(dǎo)致 MSCI 誤判了局部和全局特征,進(jìn)而導(dǎo)致最終預(yù)測結(jié)果錯(cuò)誤。 

MSCI:解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性-AI.x社區(qū)

5、結(jié)論 

在本研究中,我們?yōu)榻M合式零樣本學(xué)習(xí)提出了一種新穎的模型 MSCI。MSCI 采用自適應(yīng)機(jī)制,逐步整合來自低層和高層視覺特征層的局部和全局信息,并以分階段的方式將其融入提示嵌入中,有效克服了 CLIP 在捕捉局部視覺細(xì)節(jié)方面的固有局限性。此外,MSCI 可以根據(jù)不同的組合以及同一組合內(nèi)的不同元素,自主優(yōu)化對局部細(xì)節(jié)和全局視覺信息的注意力權(quán)重分配。實(shí)驗(yàn)表明,MSCI 在三個(gè)廣泛使用的數(shù)據(jù)集上的各項(xiàng)評估指標(biāo)均取得了顯著改進(jìn)。 


本文轉(zhuǎn)載自??AIRoobt?? ,作者:Yue Wang等

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-5-21 06:45:57修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩精品久久久 | 国产一区二区三区四区三区四 | 天天摸天天看 | 成人不卡一区二区 | 国产一级片一区二区 | 一区二区三区国产 | 天天操天天插 | 福利网址| 日韩有码一区 | 欧美网址在线观看 | 欧美日韩国产在线观看 | 99精品一区二区 | 亚洲高清视频一区二区 | 成人av一区二区三区 | 免费的日批视频 | 日本一区不卡 | h片在线看 | 欧美视频一区二区三区 | 天天插天天射天天干 | 亚洲日日| 国产精品1区2区 | a网站在线观看 | 欧美区日韩区 | 国产精品美女久久久久久久久久久 | 国产一区亚洲 | 9191av| 亚洲精品在线视频 | 激情毛片| 欧美a∨| 日韩精品免费 | 欧美日韩在线观看一区二区三区 | 无码一区二区三区视频 | 岛国午夜 | 日本不卡一区二区三区在线观看 | 欧美第一区 | 国产美女在线观看 | 成人免费在线网 | 人人干免费 | 国产精品射 | 日本一二三区高清 | 亚洲区一区二 |