多模態技術在淘寶主搜召回場景的探索

作者：幻士 2022-05-27 18:04:49

多模態預訓練與召回的結合，為我們打開了新的視野，帶來線上效果的顯著提升。

搜索召回作為搜索系統的基礎，決定了效果提升的上限。如何在現有的海量召回結果中，繼續帶來有差異化的增量價值，是我們面臨的主要挑戰。而多模態預訓練與召回的結合，為我們打開了新的視野，帶來線上效果的顯著提升。

前言

多模態預訓練是學術界與工業界研究的重點，通過在大規模數據上進行預訓練，得到不同模態之間的語義對應關系，在多種下游任務如視覺問答、視覺推理、圖文檢索上能夠提升效果。在集團內部，多模態預訓練也有一些研究與應用。在淘寶主搜場景中，用戶輸入的Query與待召回商品之間存在天然的跨模態檢索需求，只是以往對于商品更多地使用標題和統計特征，忽略了圖像這樣更加直觀的信息。但對于某些有視覺元素的Query（如白色連衣裙、碎花連衣裙），相信大家在搜索結果頁都會先被圖像所吸引。

淘寶主搜場景

一方面是圖像占據著更顯著的位置，另一方面則是圖像可能包含著標題所沒有的信息，如白色、碎花這樣的視覺元素。對于后者，需要區分兩種情況：一種是標題中有信息、但由于顯示限制無法完全展示，這種情況不影響商品在系統鏈路里的召回；另一種是標題中沒有信息但圖像中有，也就是圖像相對于文本可以帶來增量。后者是我們需要重點關注的對象。

? 技術問題與解決思路

在主搜召回場景中應用多模態技術，有兩個主要問題需要解決：

多模態圖文預訓練模型一般融合圖像、文本兩種模態，主搜由于有Query的存在，在原本商品圖像、標題的圖文模態基礎上，需要考慮額外的文本模態。同時，Query與商品標題之間存在語義Gap，Query相對短且寬泛，而商品標題由于賣家會做SEO，往往長且關鍵詞堆砌。
通常預訓練任務與下游任務的關系是，預訓練采用大規模無標注數據，下游采用少量有標注數據。但對于主搜召回來說，下游向量召回任務的規模巨大，數據在數十億量級，而受限于有限的GPU資源，預訓練只能采用其中相對少量的數據。在這種情況下，預訓練是否還能對下游任務帶來增益。

我們的解決思路如下：

文本-圖文預訓練：將Query和商品Item分別過Encoder，作為雙塔輸入到跨模態Encoder。如果從Query和Item雙塔來看，它們在后期才進行交互，類似于雙流模型，不過具體看Item塔，圖像和標題兩個模態在早期就進行了交互，這部分是單流模型。所以，我們的模型結構是區別于常見的單流或雙流結構的。這種設計的出發點是：更有效地提取Query向量和Item向量，為下游的雙塔向量召回模型提供輸入，并且能夠在預訓練階段引入雙塔內積的建模方式。為了建模Query與標題之間存在的語義聯系與Gap，我們將Query和Item雙塔的Encoder共享，再分別學習語言模型。
預訓練與召回任務聯動：針對下游向量召回任務的樣本構造方式與Loss，設計了預訓練階段的任務及建模方式。區別于常見的圖文匹配任務，我們采用Query-Item和Query-Image匹配任務，并將Query下點擊最多的Item作為正樣本，將Batch內的其他樣本作為負樣本，增加采用Query和Item雙塔內積方式建模的多分類任務。這種設計的出發點是：使預訓練更靠近向量召回任務，在有限的資源下，盡可能為下游任務提供有效的輸入。另外，對向量召回任務來說，如果預訓練輸入的向量在訓練過程中是固定不變的，就無法有效地針對大規模數據做調整，為此，我們還在向量召回任務里建模了預訓練向量的更新。

預訓練模型

? 建模方法

多模態預訓練模型需要從圖像中提取特征，再與文本特征融合。從圖像中提取特征的方式主要有三種：使用CV領域訓練好的模型提取圖像的RoI特征、Grid特征和Patch特征。從模型結構來看，根據圖像特征和文本特征融合方式的不同，主要有兩類：單流模型或雙流模型。在單流模型中，圖像特征與文本特征在早期就拼接在一起輸入Encoder，而在雙流模型中，圖像特征和文本特征分別輸入到兩個獨立的Encoder，然后再輸入到跨模態Encoder中進行融合。

? 初步探索

我們提取圖像特征的方式是：將圖像劃分為Patch序列，使用ResNet提取每個Patch的圖像特征。在模型結構上，嘗試過單流結構，也就是將Query、標題、圖像拼接在一起輸入Encoder。經過多組實驗，我們發現在這種結構下，很難提取出純粹的Query向量和Item向量作為下游雙塔向量召回任務的輸入。如果提取某一向量時，Mask掉不需要的模態，會使得預測與訓練不一致。這個問題類似于，在一個交互型的模型里直接提取出雙塔模型，根據我們的經驗，這種模型的效果不如經過訓練的雙塔模型。基于此，我們提出了一種新的模型結構。

? 模型結構

類似雙流結構，模型下方由雙塔構成，上方通過跨模態Encoder融合雙塔。與雙流結構不同的是，雙塔不是分別由單一模態構成，其中的Item塔中包含了Title和Image圖文雙模態，Title和Image拼接在一起輸入Encoder，這部分類似單流模型。為了建模Query與Title之間存在的語義聯系與Gap，我們將Query和Item雙塔的Encoder共享，再分別學習語言模型。

對于預訓練來說，設計合適的任務也是比較關鍵的。我們嘗試過常用的Title和Image的圖文匹配任務，雖然能達到比較高的匹配度，但對于下游向量召回任務帶來的增益很少，這是因為用Query去召回Item時，Item的Title和Image是否匹配不是關鍵因素。所以，我們在設計任務時，更多地考慮了Query與Item之間的關系。目前，一共采用5種預訓練任務。

? 預訓練任務

Masked Language Modeling (MLM)：在文本Token中，隨機Mask掉15%，用剩下的文本和圖像預測出被Mask的文本Token。對于Query和Title，有各自的MLM任務。MLM最小化交叉熵Loss：其中表示剩下的文本token
Masked Patch Modeling (MPM)：在圖像的Patch Token中，隨機Mask掉25%，用剩下的圖像和文本預測出被Mask的圖像Token。MPM最小化KL散度Loss：其中表示剩下的圖像token
Query Item Classification (QIC)：一個Query下點擊最多的Item作為正樣本，Batch內其他樣本作為負樣本。QIC將Query塔和Item塔的[CLS] token通過線性層降維到256維，再做相似度計算得到預測概率，最小化交叉熵Loss：其中的計算可以采取多種方式：

其中表示相似度計算，表示溫度超參數，和m分別表示縮放因子和松弛因子

Query Item Matching (QIM)：一個Query下點擊最多的Item作為正樣本，Batch內與當前Query相似度最高的其他Item作為負樣本。QIM使用跨模態Encoder的[CLS] token計算預測概率，最小化交叉熵Loss：

Query Image Matching (QIM2)：在QIM的樣本中，Mask掉Title，強化Query與Image之間的匹配。QIM2最小化交叉熵Loss：

模型的訓練目標為，最小化整體Loss：

在這5種預訓練任務中，MLM任務和MPM任務位于Item塔的上方，建模Title或Image的部分Token被Mask后，使用跨模態信息相互恢復的能力。Query塔上方有獨立的MLM任務，通過共享Query塔和Item塔的Encoder，建模Query與Title之間的語義聯系與Gap。QIC任務使用雙塔內積的方式，將預訓練和下游向量召回任務做一定程度的對齊，并用AM-Softmax拉近Query的表示與Query下點擊最多Item的表示之間的距離，推開Query與其他Item的距離。QIM任務位于跨模態Encoder的上方，使用跨模態信息建模Query和Item的匹配。出于計算量的考慮，采用通常NSP任務的正負樣本比1:1，為了進一步推開正負樣本之間的距離，基于QIC任務的相似度計算結果構造了難負樣本。QIM2任務與QIM任務位于同樣的位置，顯式建模圖像相對于文本帶來的增量信息。