不做文盲畫家!谷歌魔改「文本編碼器」:一個(gè)小操作讓圖像生成模型學(xué)會(huì)「拼寫」
過(guò)去的一年里,隨著DALL-E 2,Stable Diffusion等圖像生成模型的發(fā)布,text-to-image模型生成的圖像在分辨率、質(zhì)量、文本忠實(shí)度等方面都得到了飛躍性提升,極大促進(jìn)了下游應(yīng)用場(chǎng)景的開發(fā),人人都成了AI畫家。
但相關(guān)研究表明,目前的生成模型技術(shù)仍然存在一個(gè)重大缺陷:無(wú)法在圖像中呈現(xiàn)出可靠的視覺(jué)文本。
有研究結(jié)果表明,DALL-E 2在圖片中生成連貫文本字符上非常不穩(wěn)定,而最新發(fā)布的Stable Diffusion模型則是直接將「無(wú)法呈現(xiàn)可讀的文本」列為已知的限制。
字符拼寫錯(cuò)誤:(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.
最近Google Research發(fā)布了一篇新論文,試圖了解并提高圖像生成模型渲染高質(zhì)量視覺(jué)文本的能力。
論文鏈接:https://arxiv.org/abs/2212.10562
研究人員認(rèn)為當(dāng)下的text-to-image生成模型模型存在文本渲染缺陷的主要原因是缺乏字符級(jí)的輸入特征。
為了量化該輸入特征在模型生成中的影響,文章中設(shè)計(jì)了一系列控制實(shí)驗(yàn)對(duì)是否包含文本輸入特征的文本編碼器(character-aware和character-blind)進(jìn)行對(duì)比。
研究人員發(fā)現(xiàn),在純文本領(lǐng)域,character-aware模型在一個(gè)新的拼寫任務(wù)(WikiSpell)上獲得了很大的性能收益。
將該經(jīng)驗(yàn)遷移到視覺(jué)領(lǐng)域后,研究人員訓(xùn)練了一套圖像生成模型。實(shí)驗(yàn)結(jié)果表明character-aware模型在一系列新的文本渲染任務(wù)(DrawText基準(zhǔn))中比character-blind更勝一籌。
并且character-aware模型在視覺(jué)拼寫方面達(dá)到了更高的技術(shù)水平,盡管訓(xùn)練的樣例數(shù)量少得多,其在不常見(jiàn)的單詞上的準(zhǔn)確率仍然比競(jìng)爭(zhēng)模型高出30多個(gè)百分點(diǎn)。
Character-Aware模型
語(yǔ)言模型可分為直接訪問(wèn)構(gòu)成其文本輸入字符的character-aware模型和無(wú)法訪問(wèn)的character-blind模型。
許多早期的神經(jīng)語(yǔ)言模型直接在字符上進(jìn)行操作,而不使用多字符的token作為標(biāo)記。
后來(lái)的模型逐漸轉(zhuǎn)向基于詞匯表的tokenization,其中一些模型如ELMo仍然保留了character-aware,但其他模型如BERT則放棄了字符特征以支持更有效的預(yù)訓(xùn)練。
目前,大多數(shù)廣泛使用的語(yǔ)言模型是character-blind的,依靠數(shù)據(jù)驅(qū)動(dòng)的子詞(subword)分割算法,如字節(jié)對(duì)編碼(BPE)來(lái)生成子詞pieces作為詞匯表。
雖然這些方法對(duì)于不常見(jiàn)的序列可以退回到字符級(jí)表示,但它們?cè)谠O(shè)計(jì)上仍然會(huì)將常見(jiàn)的字符序列壓縮成不可分割的單元。
這篇論文的主要目的是試圖了解并提高圖像生成模型渲染高質(zhì)量視覺(jué)文本的能力。
為此,研究人員首先孤立地研究了當(dāng)下文本編碼器的拼寫能力,從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),盡管character-blind文本編碼器很受歡迎,但它們沒(méi)有收到關(guān)于其輸入的字符級(jí)構(gòu)成的直接信號(hào),導(dǎo)致其拼寫能力有限。
研究人員還測(cè)試了不同規(guī)模、架構(gòu)、輸入表示、語(yǔ)言和調(diào)整方法的文本編碼器的拼寫能力。
這篇論文首次記錄了character-blind模型通過(guò)網(wǎng)絡(luò)預(yù)訓(xùn)練誘導(dǎo)出強(qiáng)大的拼寫知識(shí)(準(zhǔn)確率>99%)的神奇能力,但實(shí)驗(yàn)結(jié)果表明這項(xiàng)能力在英語(yǔ)之外的語(yǔ)言中并沒(méi)有得到很好的泛化,而且只有在超過(guò)100B參數(shù)的規(guī)模下才能實(shí)現(xiàn),所以對(duì)于大多數(shù)應(yīng)用場(chǎng)景是不可行的。
另一方面,character-aware的文本編碼器能夠在更小的尺度上實(shí)現(xiàn)強(qiáng)大的拼寫能力。
在將這些發(fā)現(xiàn)應(yīng)用于圖像生成場(chǎng)景時(shí),研究人員訓(xùn)練了一系列character-aware的文本到圖像的模型,并證明它們?cè)诂F(xiàn)有的和新的文本渲染的評(píng)估中明顯優(yōu)于字符盲目的模型。
但對(duì)于純字符級(jí)模型來(lái)說(shuō),雖然文本渲染的性能提升了,但對(duì)于不涉及視覺(jué)文本的prompt,圖像-文本對(duì)齊度則會(huì)下降。
為了緩解這一問(wèn)題,研究人員建議將字符級(jí)和token級(jí)的輸入表征結(jié)合起來(lái),從而可以實(shí)現(xiàn)最佳的性能。
WikiSpell基準(zhǔn)
由于文本到圖像的生成模型依賴于文本編碼器來(lái)產(chǎn)生用于解碼的表征,研究人員首先從Wiktionary中采樣一些單詞創(chuàng)建了WikiSpell基準(zhǔn),然后基于此數(shù)據(jù)集在一個(gè)純文本的拼寫評(píng)估任務(wù)來(lái)探索文本編碼器的能力。
對(duì)于WikiSpell中的每個(gè)樣例,模型的輸入是一個(gè)單詞,預(yù)期的輸出是它的具體拼寫(通過(guò)在每個(gè)Unicode字符之間插入空格來(lái)生成)。
由于該文章僅對(duì)研究一個(gè)詞的頻率和模型的拼寫能力之間的關(guān)系感興趣,所以研究人員根據(jù)單詞在mC4語(yǔ)料庫(kù)中出現(xiàn)的頻率,將Wiktionary中的詞分成五個(gè)互不重疊的桶:最頻繁的前1%的詞,最頻繁的1-10%的詞,10-20%的詞,20-30%的詞,以及最低的50%的詞(包括在語(yǔ)料庫(kù)中從未出現(xiàn)過(guò)的詞)。
然后從每個(gè)桶中均勻地抽取1000個(gè)詞來(lái)創(chuàng)建一個(gè)測(cè)試集(以及一個(gè)類似的開發(fā)集)。
最后通過(guò)結(jié)合兩部分建立了一個(gè)由10,000個(gè)詞組成的訓(xùn)練集:5,000個(gè)從最底層的50%桶(最不常見(jiàn)的詞)中統(tǒng)一取樣,另外5,000個(gè)根據(jù)它們?cè)趍C4中的頻率按比例取樣(從而使這一半的訓(xùn)練集偏向頻繁的詞)。
研究人員將任何被選入開發(fā)集或測(cè)試集的詞排除在訓(xùn)練集之外,因此評(píng)估結(jié)果總是針對(duì)被排除的詞。
除了英語(yǔ)外,研究人員還對(duì)其他六種語(yǔ)言(阿拉伯語(yǔ)、漢語(yǔ)、芬蘭語(yǔ)、韓語(yǔ)、俄語(yǔ)、泰語(yǔ))進(jìn)行評(píng)估,選擇這些語(yǔ)言是為了涵蓋影響模型學(xué)習(xí)拼寫能力的各種特性,對(duì)每一種語(yǔ)言的評(píng)估都重復(fù)上述數(shù)據(jù)集構(gòu)建過(guò)程。
文本生成實(shí)驗(yàn)
研究人員使用WikiSpell基準(zhǔn)來(lái)評(píng)估多種預(yù)訓(xùn)練的純文本模型在不同規(guī)模上的表現(xiàn),包括T5(一個(gè)在英語(yǔ)數(shù)據(jù)上預(yù)訓(xùn)練的character-blind編碼解碼器模型);mT5(與T5類似,但在超過(guò)100種語(yǔ)言上預(yù)訓(xùn)練);ByT5(mT5的character-aware版本,直接在UTF-8字節(jié)序列上操作);以及PaLM(一個(gè)規(guī)模更大的解碼模型,主要是在英語(yǔ)上預(yù)訓(xùn)練的)。
在純英語(yǔ)和多語(yǔ)言的實(shí)驗(yàn)結(jié)果中,可以發(fā)現(xiàn)character-blind模型T5和mT5在包含Top-1%最頻繁詞匯的桶上的表現(xiàn)要差很多。
這個(gè)結(jié)果似乎是反直覺(jué)的,因?yàn)槟P屯ǔT跀?shù)據(jù)中頻繁出現(xiàn)的例子上表現(xiàn)最好,但是由于subword詞匯的訓(xùn)練方式,頻繁出現(xiàn)的詞通常被表示為一個(gè)單一的原子標(biāo)記(或少量的標(biāo)記),事實(shí)上也是如此:在英語(yǔ)前1%的桶中,87%的詞被T5的詞匯表示為一個(gè)子詞標(biāo)記。
因此,較低的拼寫準(zhǔn)確性分?jǐn)?shù)表明,T5的編碼器沒(méi)有保留足夠的關(guān)于其詞匯中subword的拼寫信息。
其次,對(duì)于character-blind模型,規(guī)模是影響拼寫能力的一個(gè)重要因素。T5和mT5都隨著規(guī)模的增加而逐漸變好,但即使在XXL規(guī)模下,這些模型也沒(méi)有表現(xiàn)出特別強(qiáng)的拼寫能力。
只有當(dāng)character-blind模型達(dá)到PaLM的規(guī)模時(shí),才開始看到近乎完美的拼寫能力:540B參數(shù)的PaLM模型在英語(yǔ)的所有頻率桶中都達(dá)到了>99%的準(zhǔn)確率,盡管它在提示中只看到20個(gè)例子(而T5顯示的是1000個(gè)微調(diào)例子)。
然而,PaLM在其他語(yǔ)言上的表現(xiàn)較差,可能是由于這些語(yǔ)言的預(yù)訓(xùn)練數(shù)據(jù)少得多。
對(duì)ByT5的實(shí)驗(yàn)表明,character-aware模型表現(xiàn)出更強(qiáng)大的拼寫能力。ByT5在Base和Large尺寸下的表現(xiàn)僅略微落后于XL和XXL(盡管仍然至少在90%的范圍內(nèi)),而且一個(gè)詞的頻率似乎對(duì)ByT5的拼寫能力沒(méi)有太大影響。
ByT5的拼寫性能遠(yuǎn)遠(yuǎn)超過(guò)了(m)T5的結(jié)果,甚至與參數(shù)多于100倍的PaLM的英語(yǔ)表現(xiàn)相當(dāng),并且超過(guò)了PaLM在其他語(yǔ)言上的表現(xiàn)。
從而可知ByT5編碼器保留了相當(dāng)多的字符級(jí)信息,而且這些信息可以根據(jù)解碼任務(wù)的需要從這些凍結(jié)的參數(shù)中檢索出來(lái)。
DrawText基準(zhǔn)
從2014年發(fā)布的COCO數(shù)據(jù)集到2022年的DrawBench基準(zhǔn),從FID, CLIP得分到人類偏好等指標(biāo),如何評(píng)估text-to-image模型一直是一個(gè)重要的研究課題。
但目前在文本渲染和拼寫評(píng)估方面一直缺乏相關(guān)工作。
為此,研究人員提出了一個(gè)新的基準(zhǔn)DrawText,旨在全面衡量文本到圖像模型的文本渲染質(zhì)量。
DrawText基準(zhǔn)由兩部分組成,分別測(cè)量模型能力的不同維度:
1)DrawText Spell,通過(guò)大量的英語(yǔ)單詞集合的普通單詞渲染進(jìn)行評(píng)估;
研究人員從英語(yǔ)WikiSpell頻率桶中各抽取100個(gè)單詞,并將它們插入一個(gè)標(biāo)準(zhǔn)模板中,總共構(gòu)建了500個(gè)提示。
對(duì)于每個(gè)prompt,從候選模型中抽取4張圖片,并使用人類評(píng)分和基于光學(xué)字符識(shí)別(OCR)的指標(biāo)對(duì)其進(jìn)行評(píng)估。
2)DrawText Creative,通過(guò)視覺(jué)效果的文本渲染進(jìn)行評(píng)估。
視覺(jué)文本并不局限于像街道標(biāo)志那樣的常見(jiàn)場(chǎng)景,文字可以以多種形式出現(xiàn),如潦草的、繪畫的、雕刻的、雕塑的,等等。
如果圖像生成模型支持靈活而準(zhǔn)確的文本渲染,這將使設(shè)計(jì)師能夠使用這些模型來(lái)開發(fā)創(chuàng)造性的字體、標(biāo)志、布局等等。
為了測(cè)試圖像生成模型支持這些用例的能力,研究人員與一位專業(yè)的圖形設(shè)計(jì)師合作,構(gòu)建了175個(gè)不同的提示,要求在一系列創(chuàng)造性的風(fēng)格和設(shè)置中渲染文本。
許多提示超出了當(dāng)前模型的能力,最先進(jìn)的模型會(huì)表現(xiàn)出拼寫錯(cuò)誤、丟棄或重復(fù)的單詞。
圖像生成實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果顯示,用于對(duì)比的9個(gè)圖像生成模型中在DrawText Spell基準(zhǔn)上的準(zhǔn)確率中,character-aware模型(ByT5和Concat)無(wú)論模型尺寸大小都優(yōu)于其他模型,特別是在不常見(jiàn)單詞上。
Imagen-AR顯示了避免cropping的好處,盡管訓(xùn)練時(shí)間長(zhǎng)了6.6倍,其仍然比字character-aware模型表現(xiàn)差。
模型之間的另一個(gè)明顯的區(qū)別在于它們是否在多個(gè)樣本中持續(xù)地拼錯(cuò)一個(gè)給定的單詞。
在實(shí)驗(yàn)結(jié)果中可以看出,無(wú)論抽取多少個(gè)樣本,T5模型都有很多單詞拼錯(cuò),研究人員認(rèn)為這表明文本編碼器中缺少字符知識(shí)。
相比之下,ByT5模型基本只會(huì)出現(xiàn)零星的錯(cuò)誤。
通過(guò)測(cè)量模型在所有四個(gè)圖像樣本中持續(xù)正確(4/4)或持續(xù)錯(cuò)誤(0/4)的比率可以量化這一觀察結(jié)果。
可以看到一個(gè)鮮明的對(duì)比,特別是在常見(jiàn)的詞上(前1%),即ByT5模型從未持續(xù)錯(cuò)誤,而T5模型在10%或更多的詞上持續(xù)錯(cuò)誤。