過(guò)半作者是華人！Google Research圖像表征模型ALIGN霸榜ImageNet

作者：佚名 2021-05-13 16:45:10

NLP和CV怎么總能擦出火花？Google集結(jié)十位專家又霸榜ImageNet了，最后專家們還對(duì)AI的恐怖能力提出了一些社會(huì)學(xué)警告。

神經(jīng)網(wǎng)絡(luò)實(shí)際上就是在學(xué)習(xí)一種表示，在CV領(lǐng)域，良好的視覺(jué)和視覺(jué)語(yǔ)言（vision and vision-language）表征對(duì)于解決計(jì)算機(jī)視覺(jué)問(wèn)題(圖像檢索、圖像分類、視頻理解)至關(guān)重要，并且可以幫助人們解決日常生活中的難題。

例如，一個(gè)好的視覺(jué)語(yǔ)言匹配模型可以幫助用戶通過(guò)文本描述或圖像輸入找到最相關(guān)的圖像，還可以幫助像 Google Lens 這樣的設(shè)備找到更細(xì)粒度的圖像信息。

為了學(xué)習(xí)這樣的表示，當(dāng)前最先進(jìn)的視覺(jué)和視覺(jué)語(yǔ)言模型嚴(yán)重依賴于需要專家知識(shí)和廣泛標(biāo)簽的訓(xùn)練數(shù)據(jù)集。

對(duì)于視覺(jué)相關(guān)的應(yīng)用場(chǎng)景來(lái)說(shuō)，視覺(jué)表示主要是在具有顯式類標(biāo)簽的大規(guī)模數(shù)據(jù)集上學(xué)習(xí)的，如 ImageNet、 OpenImages 和 JFT-300M等。

對(duì)于視覺(jué)語(yǔ)言的應(yīng)用來(lái)說(shuō)，常用的預(yù)訓(xùn)練數(shù)據(jù)集，如Conceptual Captions和Visual Genome Dense Captions，都需要大量的數(shù)據(jù)收集和清理工作，這限制了數(shù)據(jù)集的大小，從而阻礙了訓(xùn)練模型的規(guī)模。

相比之下，自然語(yǔ)言處理的模型在 GLUE 和 SuperGLUE 基準(zhǔn)測(cè)試中，他們達(dá)到sota性能是通過(guò)對(duì)原始文本進(jìn)行大規(guī)模的預(yù)訓(xùn)練而不使用人工標(biāo)簽。

在 ICML 2021會(huì)議上，Google Research發(fā)表了Scaling up visual and vision-language representation learning with noisy text supervision一文，建議利用公開(kāi)的圖像替代文本數(shù)據(jù)(如果圖像未能在用戶屏幕上顯示，則在網(wǎng)頁(yè)上顯示替代圖像的書面文本)來(lái)彌補(bǔ)這一差距，以訓(xùn)練更大、最先進(jìn)的視覺(jué)和視覺(jué)-語(yǔ)言模型。

過(guò)半作者是華人！Google Research圖像表征模型ALIGN霸榜ImageNet

為了達(dá)到這個(gè)目的，我們利用了一個(gè)超過(guò)10億個(gè)圖像和文本對(duì)的噪聲數(shù)據(jù)集，在概念標(biāo)題數(shù)據(jù)集中沒(méi)有昂貴的過(guò)濾或后處理步驟就獲得了這個(gè)數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明，我們的語(yǔ)料庫(kù)規(guī)模可以彌補(bǔ)噪聲數(shù)據(jù)的不足，從而實(shí)現(xiàn)了 SotA 表示，并且在轉(zhuǎn)換到 ImageNet 和 VTAB 等分類任務(wù)時(shí)表現(xiàn)出了很好的性能。對(duì)齊的視覺(jué)和語(yǔ)言表示還在 Flickr30K 和 MS-COCO 基準(zhǔn)上設(shè)置新的 SotA 結(jié)果，即使與更復(fù)雜的交叉關(guān)注模型相比也是如此，并支持零鏡頭圖像分類和復(fù)雜文本和文本 + 圖像查詢的交叉模式搜索。

圖文數(shù)據(jù)集中的 alt-text 通常是關(guān)于圖像的描述，但數(shù)據(jù)集可能包括噪音，例如一些描述文本可能部分或全部與其配對(duì)圖像無(wú)關(guān)。

例如第二張圖中就包括部分與圖像無(wú)關(guān)的描述，如日期、縮略圖等等。

Google的研究工作主要遵循構(gòu)建Conceptual Captions數(shù)據(jù)集的方法來(lái)獲得原始的英語(yǔ)描述文本數(shù)據(jù)，即圖像和alt-text的pairs。

雖然Conceptual Captions數(shù)據(jù)集被大量的過(guò)濾和后處理清理過(guò)了，但是論文中的工作通過(guò)放寬數(shù)據(jù)清洗的措施來(lái)擴(kuò)大數(shù)據(jù)集，這種方法來(lái)擴(kuò)展視覺(jué)和視覺(jué)語(yǔ)言表征學(xué)習(xí)。

最后獲得了一個(gè)更大但噪音也更大的數(shù)據(jù)集，共包含 18億個(gè) 圖像-文本對(duì)。

ALIGN: A Large-scale ImaGe and Noisy-Text Embedding

為了便于建立更大的模型，模型框架采用了一個(gè)簡(jiǎn)單的雙編碼器結(jié)構(gòu)用來(lái)學(xué)習(xí)圖像和文本對(duì)的視覺(jué)和語(yǔ)言表示的align表示。

圖像和文本編碼器是通過(guò)對(duì)比學(xué)習(xí)來(lái)訓(xùn)練，即歸一化的softmax。

這種對(duì)比損失將匹配的圖像-文本對(duì)的embedding盡可能貼近，同時(shí)將那些不匹配的圖像-文本對(duì)(在同一batch中)盡可能分開(kāi)。

大規(guī)模數(shù)據(jù)集使我們能夠訓(xùn)練擁有更多參數(shù)的模型，甚至可以從零開(kāi)始訓(xùn)練和EffecientNet-L2和BERT-large那么大的模型。學(xué)到的視覺(jué)表征可以用于下游的視覺(jué)和視覺(jué)語(yǔ)言任務(wù)。

所得到的表示可以用于純視覺(jué)或視覺(jué)語(yǔ)言任務(wù)上的遷移學(xué)習(xí)，無(wú)需任何微調(diào)，ALIGN 就能夠跨模態(tài)搜索圖像到文本、文本到圖像，甚至聯(lián)合搜索圖像 + 文本的query。

上述例子就展示了ALIGN的這種能力。

Evaluating Retrieval and Representation

評(píng)估檢索和表示學(xué)習(xí)的時(shí)候， ALIGN 模型與 BERT-Large 和 EfficientNet-L2共同作為文本和圖像編碼器，能夠在多個(gè)圖像文本檢索任務(wù)(Flickr30K 和 MS-COCO) ZeroShot任務(wù)和微調(diào)中都取得了sota性能。

ALIGN 也是一個(gè)強(qiáng)大的圖像表示模型。在固定住特征以后，ALIGN 略優(yōu)于 CLIP，并在 ImageNet 上獲得85.5% 的 SotA 結(jié)果。通過(guò)微調(diào)，ALIGN 比大多數(shù)通用模型(如 BiT 和 ViT)獲得了更高的準(zhǔn)確性，只比 Meta Pseudo Labels 差，但后者需要 ImageNet 訓(xùn)練和大規(guī)模未標(biāo)記數(shù)據(jù)之間進(jìn)行更深入的交互。

在Zero-Shot圖像分類上，圖像分類問(wèn)題將每個(gè)類別視為獨(dú)立的 id，人們必須通過(guò)每個(gè)類別至少拍攝幾張標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練分類層次。但類名實(shí)際上也是自然語(yǔ)言短語(yǔ)，因此可以很自然而然地?cái)U(kuò)展 ALIGN 圖像分類的圖文檢索能力，而不需要任何訓(xùn)練數(shù)據(jù)。

在 ImageNet 驗(yàn)證數(shù)據(jù)集上，ALIGN 實(shí)現(xiàn)了76.4% 的 top-1 Zero-shot 準(zhǔn)確率，并且在不同的 ImageNet 變體中表現(xiàn)出很強(qiáng)的魯棒性，這與同時(shí)期的工作 CLIP 很像，都使用了文本提示來(lái)訓(xùn)練。

為了能夠說(shuō)明圖像檢索的實(shí)際效果，論文中還構(gòu)建了一個(gè)簡(jiǎn)單的圖像檢索系統(tǒng)，該系統(tǒng)使用 ALIGN 訓(xùn)練的embedding，并展示了一億6000萬(wàn)張圖像池中少數(shù)文本查詢的top1個(gè)文本到圖像的檢索結(jié)果。

ALIGN 可以檢索給出場(chǎng)景詳細(xì)描述的精確圖像，或者細(xì)粒度或?qū)嵗?jí)的概念，如地標(biāo)和藝術(shù)品。

這些示例表明，ALIGN 模型可以使圖像和文本具有相似的語(yǔ)義，并且 ALIGN 可以概括為新的復(fù)雜概念。

多模態(tài)(圖像 + 文本)圖像搜索查詢單詞向量的一個(gè)令人驚訝的特性是，單詞類比通常可以用向量算法解決。一個(gè)常見(jiàn)的例子，“ king-man + woman = queen”。圖像和文本嵌入之間的這種線性關(guān)系也出現(xiàn)在 ALIGN 中。

具體來(lái)說(shuō)，給定一個(gè)查詢圖像和一個(gè)文本字符串，將它們的 ALIGN embedding相加到一起，并使用余弦距離檢索相關(guān)圖像。

這些例子不僅說(shuō)明了 ALIGN 嵌入跨視覺(jué)域和語(yǔ)言域的組合性，而且表明了使用多模態(tài)查詢進(jìn)行搜索的可行性。例如，人們現(xiàn)在可以尋找“澳大利亞”或“馬達(dá)加斯加”大熊貓的等價(jià)物，或者把一雙黑鞋變成看起來(lái)一模一樣的米色鞋子。此外，還可以通過(guò)在嵌入空間中執(zhí)行減法來(lái)刪除場(chǎng)景中的對(duì)象/屬性。

在社會(huì)影響方面，雖然這項(xiàng)工作從方法論的角度來(lái)看，以簡(jiǎn)單的數(shù)據(jù)收集方法顯示了令人滿意的結(jié)果，但在實(shí)踐中負(fù)責(zé)任地使用該模型之前，還需要對(duì)數(shù)據(jù)和由此產(chǎn)生的模型進(jìn)行進(jìn)一步分析。例如，應(yīng)當(dāng)考慮是否有可能利用備選案文中的有害文本數(shù)據(jù)來(lái)加強(qiáng)這種危害。關(guān)于公平性，可能需要努力平衡數(shù)據(jù)，以防止從網(wǎng)絡(luò)數(shù)據(jù)加強(qiáng)定型觀念。應(yīng)該對(duì)敏感的宗教或文化物品進(jìn)行額外的測(cè)試和訓(xùn)練，以了解并減輕可能貼錯(cuò)標(biāo)簽的數(shù)據(jù)帶來(lái)的影響。

還應(yīng)該進(jìn)一步分析，以確保人類的人口分布和相關(guān)的文化物品，如衣服、食物和藝術(shù)品，不會(huì)造成曲解的模型性能。如果這些模型將在生產(chǎn)環(huán)境中使用，則需要進(jìn)行分析和平衡。

綜上所述，Google Research提出了一種利用大規(guī)模圖文數(shù)據(jù)進(jìn)行視覺(jué)和視覺(jué)語(yǔ)言表征學(xué)習(xí)的簡(jiǎn)單方法，模型 ALIGN 能夠進(jìn)行跨模態(tài)檢索，并且明顯優(yōu)于 SotA 模型。在純視覺(jué)的下游任務(wù)中，ALIGN 也可以與使用大規(guī)模標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練的 SotA 模型相比，或者優(yōu)于 SotA 模型。

本文的一二作者分別是Chao Jia和Yinfei Yang兩位華人，而他們分別的研究方向分別為CV和NLP，可見(jiàn) 神經(jīng)網(wǎng)絡(luò)讓NLP和CV的界限也更加模糊了，萬(wàn)物皆可embedding。