北京大學彭宇新教授團隊開源最新多輪交互式商品檢索模型、數據集及評測基準
本文是北京大學彭宇新教授團隊在多輪交互式商品檢索的最新研究成果,已被 ICLR 2025 接收并開源。
圖像檢索是計算機視覺的經典任務,近年來在電商等場景中廣泛應用。然而,單一圖像難以滿足用戶需求,用戶常需要修改圖像以適配特定場景。為此,組合圖像檢索(CIR)應運而生,旨在通過結合參考圖像和修改文本來定位目標圖像。隨著多輪交互需求的增加,多輪組合圖像檢索(MTCIR)逐漸成為研究熱點,能夠利用用戶迭代反饋不斷優化檢索結果。然而,現有MTCIR方法通常通過串聯單輪CIR數據集構建多輪數據集,存在兩點不足:
(1)歷史上下文缺失:修改文本缺乏對歷史圖像的關聯,導致檢索偏離實際場景;
(2)數據規模受限:單輪數據集規模有限,串聯方式進一步壓縮了多輪數據集的規模,難以滿足研究和應用需求。
為解決上述問題,本文構建了新的多輪組合圖像檢索數據集和評測基準FashionMT。其特點包括:
(1)回溯性:每輪修改文本可能涉及歷史參考圖像信息(如保留特定屬性),要求算法回溯利用多輪歷史信息;
(2)多樣化:FashionMT包含的電商圖像數量和類別分別是MT FashionIQ的14倍和30倍,且交互輪次數量接近其27倍,提供了豐富的多模態檢索場景。
本文進一步提出了多輪聚合-迭代模型MAI,重點應對MTCIR中的兩大挑戰:
(1)多模態語義聚合。
(2)多輪信息優化。具體而言,MAI引入了一種新的兩階段語義聚合(TSA)范式,并結合循環組合損失(CCL)計算。TSA通過引入描述文本作為過渡,逐步將圖像與其描述文本聚合,再與修改文本聚合。CCL的循環結構進一步增強了語義一致性和模態對齊。此外,本文設計了一種無參數的多輪迭代優化(MIO)機制,動態選擇具有高語義多樣性的代表性標記,有效壓縮了歷史數據表征的存儲空間。實驗結果表明,本方法在所提出的新基準FashionMT的召回指標上平均提升了8%,優于現有方法。
- 論文標題:MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval
- 論文鏈接:https://openreview.net/pdf?id=gXyWbl71n1
- 開源代碼:https://github.com/PKU-ICST-MIPL/MAI_ICLR2025
- 實驗室網址:https://www.wict.pku.edu.cn/mipl
背景與動機
多輪組合圖像檢索(MTCIR)作為電商場景的關鍵技術,旨在通過持續對話理解用戶動態調整的需求?,F有方法采用"多輪串聯單輪"范式時,模型陷入僅依賴當前輪次圖像的路徑依賴,導致歷史語義鏈路斷裂——當用戶修改需求涉及歷史屬性時(如"保留前兩輪的袖口設計"),檢索系統因無法回溯上下文而失效。這一現象暴露兩大關鍵不足:首先,現有數據集構建方式割裂了跨輪次的語義關聯,使模型陷入局部最優陷阱;其次,傳統單輪優化范式難以適應多輪場景的語義累積特性,在長程信息傳遞與動態記憶壓縮方面存在設計局限。
針對上述不足,本文提出了系統性解決方案:
(1) 跨輪次語義建??蚣埽?/strong>通過顯式標注多輪修改需求與歷史圖像的語義關聯,構建首個具備歷史回溯特性的數據集和評測基準FashionMT;
(2) 兩階段跨模態語義聚合:設計基于TSA模塊與CCL損失的漸進式對齊架構,通過圖像-文本-指令的層級交互解決模態鴻溝問題;
(3) 動態記憶壓縮機制:設計MIO模塊,利用基于聚類算法的token選擇策略實現長程依賴建模中的信息優化,在保持檢索精度的同時減少歷史信息冗余存儲。本文方法實現了多輪檢索中語義連續性與計算效率的協同優化。
圖1. 多輪組合圖像檢索樣例展示
數據集和評測基準
本文的數據主要來源于兩個渠道:1. 從現有的單輪組合圖像檢索數據集收集圖像及相關文本;2. 從多個電商平臺爬取圖像及相關文本。在數據預處理過程中,本文對爬取的圖像進行了清洗,去除損壞、模糊以及非商品類圖像。
圖2. 數據集和評測基準FashionMT數據分布圖
受現有修改文本手工標注過程的啟發,本文提出了一個自動化的數據集構建框架-修改生成框架(MGF),旨在通過捕捉參考圖像和目標圖像對之間的差異,自動構建數據集。該框架包括以下步驟:
1. 圖像選擇:從某一產品子類中選擇N+1張圖像用于N輪交易;2. 標題生成:利用圖像描述模型為這些圖像生成標題;3. 基礎修改生成:采用大型語言模型(LLM)描述相鄰輪次圖像標題之間的差異;4. 回溯性修改生成:確定需要回溯分析的特定輪次,并根據最新圖像與歷史圖像之間的屬性交集生成相應的修改文本。
為了更好地適應現實場景中的回溯性需求,本文設定了兩種回溯性修改文本生成情境:回滾和組合。在回滾設置中,通過回滾的方式在指定的參考圖像與目標圖像之間生成修改文本。該情境下的示例為:“Compared to the most recent turn, I still prefer the item from the second turn. Building on that, I like...”。在組合設置中,用戶結合多個歷史輪次中的圖像屬性來構建修改請求。該情境下的示例為:“I like ... from the first turn, and ... from the second turn” 。在此設置中,修改文本由兩部分組成:第一部分是描述需要保留的公共屬性,并以提示 “Keep the {Attr} in the {ID} turn” 開頭,其中 {Attr}表示如顏色、logo、圖案等屬性,{ID}表示與目標圖像共享屬性的輪次;第二部分描述附加的修改需求。
FashionMT在規模和豐富性上顯著超越現有數據集,圖像數量是MT FashionIQ的14倍,類別數量是MT Shoes的近10倍。通過利用修改生成框架,FashionMT實現了高效的交易構建,數據集規模為MT FashionIQ的27倍。此外,FashionMT的修改文本更加詳盡,平均長度是MT FashionIQ的兩倍。作為專為MTCIR任務設計的數據集,FashionMT為多模態圖像檢索任務提供了更加全面和真實的數據支持。
技術方案
為應對MTCIR中的兩大挑戰——多模態語義聚合和多輪信息優化,本文提出了多輪聚合-迭代模型(MAI)。如圖3所示,MAI包含4個主要模塊:
1.多模態語義聚合(BSA):通過聚合圖像描述和修改文本的語義信息,增強圖像與文本之間的語義對齊。
2.多輪迭代優化(MIO):通過優化多輪交互中的關鍵語義 tokens,減少冗余信息,提升檢索性能。
3.修改語義聚合(MSA):將修改文本與參考圖像的語義信息進行融合,以強化修改內容對圖像的語義影響。
4.循環組合損失(CCL):通過多輪訓練中的循環優化機制,強化目標圖像與修改文本之間的匹配度。
圖3. 多輪聚合-迭代模型方法框架圖
模塊1:多模態語義聚合(BSA)
在第 n 輪,首先對修改文本進行語法分析,判斷是否存在回滾操作,判斷標準是基于預設模板生成的修改文本。如果修改文本匹配回滾模板,則將參考圖像指定為回滾輪次中的圖像;如果不匹配,則默認選擇第 n 輪的參考圖像。通過凍結視覺編碼器提取圖像的視覺補丁嵌入。BSA 框架通過可學習的 tokens,首先學習圖像及其描述之間的模態語義,然后與修改文本進行交互,從而在與修改文本交互時增強模態之間的相關性。經過 BSA 后,tokens 聚合了參考圖像和圖像描述的多模態語義,記為
。
模塊2:多輪迭代優化(MIO)
盡管tokens 比視覺嵌入更節省空間,但為每一輪存儲這些 tokens 仍會消耗大量空間。電商圖像通常具有不同的屬性,如顏色、風格、尺寸等,而多輪檢索往往涉及同一子類別的商品,導致多輪圖像之間存在相似屬性。因此,提出了一種無參數機制,用于優化并保留在多輪交互中關鍵的語義屬性。本方法將上一輪的學習到的與當前輪的
拼接得到
,優化過程包括以下幾個步驟:
(1)聚類:基于 k-最近鄰的密度峰值聚類算法(DPC-kNN),對進行聚類,聚類操作可表示如下
其中表示第 i 個聚類,
為第 i 個聚類的質心。
(2)密度估計:聚類后,根據簇內 tokens 與其他 tokens 的距離,估計每個簇的密度,低密度的 tokens 會被過濾掉。密度估計公式為:
其中 Nei(v) 表示 v 的鄰近 tokens。
(3)修剪:通過計算每個 token 的密度和與鄰近點的距離,過濾得分較低的 tokens,保留得分高即語義顯著的 tokens。最終表示為 ,有效保留了攜帶判別性語義的 tokens,減少了計算資源的消耗。
模塊3:修改語義聚合(MSA)
在 MSA 階段,本文將包含參考語義的tokens 與修改文本嵌入 m_n 進行交互。通過凍結文本編碼器提取修改文本的嵌入,將其與
拼接后輸入自注意力層。隨后,經過線性變換和歸一化處理,最終得到參考端的嵌入
,該嵌入同時包含來自參考圖像、圖像描述和修改文本的多模態語義。由于涉及多個歷史圖像,BSA 將通過拼接前幾輪的tokens 與對應的圖像描述,進行多模態嵌入的聚合。隨后,這些嵌入將與修改文本在 MSA 中進行語義聚合。
模塊4:循環組合損失(CCL)
在多輪組合圖像檢索任務中,修改文本在檢索過程中的引導作用至關重要。為此,本文提出了循環組合損失(CCL),旨在通過對多模態信息進行精確對齊,強化圖像與文本之間的語義關聯,特別是文本修改的語義。具體而言,本文設計的循環組合損失目標是通過多輪迭代中圖像和文本的語義對齊,確保檢索結果更加準確。該損失函數結合了4種嵌入的約束,包括參考圖像的語義嵌入、目標圖像的語義嵌入、修改文本的語義嵌入以及目標圖像的文本特征。通過多輪訓練,強化每輪之間語義的傳遞和優化,使得最終的目標圖像能更好地與修改文本匹配。循環組合損失(CCL) 由以下4項損失組成:
(1)參考圖像語義與目標圖像語義之間的相似度損失
(2)目標圖像語義與修改文本語義之間的相似度損失
(3)修改文本語義與目標圖像文本特征之間的相似度損失
(4)目標圖像文本特征與參考圖像語義之間的相似度損失
每一項相似度損失通過批量分類損失計算,使用內積方法(余弦相似度)衡量嵌入之間的相似性。最終,循環組合損失為各輪損失的累積,確保在多輪交互中,所有語義信息得到充分融合和優化,其公式展示如下:
實驗結果
表1. 在FashionMT數據集上的實驗結果
表1的實驗結果表明,本文所提出的MAI方法顯著優于現有方法,在檢索的召回率平均指標上相比新加坡A*STAR研究院的SPRC方法提高了8.63%,相比北京大學發布的多模態混合輸入大模型MMICL提高了11.77%。
圖4. 在FashionMT數據集上的檢索結果可視化
圖4表明, MAI通過利用TSA和CCL高效聚合圖像-描述文本的語義,能夠有效處理細粒度需求,使其對“縐布”和“復古設計”等領域特定術語具有識別能力。此外,MAI通過使用MIO組件保留多輪歷史關鍵信息,能夠精確解釋諸如“肩帶設計”等模糊表達,從而滿足回溯性需求。
更多內容,請參見原文。