突破性進展!只需單張參考圖,完美仿寫各種手寫內容!華南理工等開源One-DM
文章鏈接:https://arxiv.org/pdf/2409.04004
git鏈接:https://github.com/dailenson/One-DM
亮點直擊
- 提出一種創新的擴散模型,用于生成風格化的手寫文本。這一模型的顯著特點是只需一個參考樣本作為風格輸入,便能模仿該樣本的書寫風格,生成任意內容的手寫文本。這種方法的簡化使得風格化手寫文本的生成更加高效和便捷。
- 引入了參考樣本中的高頻成分,以增強手寫風格的提取。通過采用這種風格增強模塊,能夠更精確地捕捉書寫風格的細微模式,同時有效減少背景噪聲的干擾。這種創新顯著提升了生成文本的風格還原度和清晰度。
- 在英語、中文和日語等多種語言的手寫數據集上進行的廣泛實驗表明,盡管該方法只使用一個風格參考樣本,但其生成效果卻超過了以往需要多達15倍樣本的傳統方法。這一成果表明,該研究在風格化手寫文本生成領域具有顯著的突破性進展。
總結速覽
解決的問題:
- 現有手寫文本生成方法通常需要超過十個樣本作為風格參考。
- 實際應用中,用戶偏好只用一個樣本的生成模型以提高便利性和效率。
- 單樣本生成方法面臨捕捉細節和處理背景噪聲的挑戰,特別是在字符邊緣的高頻信息提取上困難重重。
提出的方案:
- 提出了“單樣本擴散模仿器”(One-DM)來生成手寫文本,并能模仿任何書法風格。
- 開發了一種風格增強模塊,利用樣本中的高頻信息(如字符傾斜和字母連接)來提升風格提取效果。
- 將風格特征與文本內容融合,作為擴散模型生成手寫文本的引導條件。
應用的技術:
- 風格增強模塊提取并增強樣本中的高頻信息,以捕捉細膩的風格細節。
- 通過將風格特征和文本內容合并,指導擴散模型生成高質量的手寫文本圖像。
達到的效果:
- 實驗表明,One-DM方法能夠在僅使用一個樣本的情況下,成功生成多種語言的手寫文本。
- 相比需要超過十個樣本的方法,One-DM在生成效果上表現更優。
方法
整體方案:
思路集中在利用風格參考圖像中的高頻信息來增強風格模式的提取。一種簡單的實現方式是使用普通的transformer編碼器來從風格圖像及其對應的高頻圖像中提取風格特征。然而,這種簡單方法面臨兩個主要問題:
- 缺乏有效的監督目標,使得從高頻圖像中準確學習作者的風格模式變得具有挑戰性;
- 從原始圖像中捕獲的風格特征仍然保留了不需要的噪聲背景,這可能對后續的圖像生成性能產生負面影響。
為了解決上述問題,作者開發了一種更有效的方法,如下圖3所示。
該方法包括風格增強模塊、內容編碼器、風格-內容融合模塊和條件擴散模塊。具體流程如下:
突破性進展!只需單張參考圖,完美仿寫各種手寫內容!華南理工等開源One-DM-AI.x社區
風格增強模塊
突破性進展!只需單張參考圖,完美仿寫各種手寫內容!華南理工等開源One-DM-AI.x社區
突破性進展!只需單張參考圖,完美仿寫各種手寫內容!華南理工等開源One-DM-AI.x社區
風格-內容融合模塊
突破性進展!只需單張參考圖,完美仿寫各種手寫內容!華南理工等開源One-DM-AI.x社區
具體來說,第一個交叉注意力模塊將文本內容 E 作為查詢,來識別風格參考中的最相關風格信息,從而推斷每個字符對應的風格屬性。例如,如果文本內容是 'a',它會優先搜索風格參考中類似于 'a'、'b'、'd'、'g' 的字符風格特征,因為這些字符具有相似的循環結構,暗示它們的風格屬性更為可比。這個過程(圖3中的交叉注意力)表示為:
通過簡單地將 O 和 E 相加來獲得內容和風格引導之間的初步融合嵌入。然后,將合并后的中間向量作為自注意力機制中的查詢、鍵和值,以促進信息的全面交互。最后,融合后的嵌入 g 作為擴散過程的條件。第二個多頭注意力(圖3中的自注意力)定義為:
條件擴散模型
突破性進展!只需單張參考圖,完美仿寫各種手寫內容!華南理工等開源One-DM-AI.x社區
實驗
結果
風格化手寫文本生成:首先,評估了 One-DM 在生成風格化手寫文本圖像方面的表現,旨在在生成的圖像中復制風格和內容。按照 [5, 27, 46] 的方法,首先計算了生成樣本和真實樣本之間的 FID,對于每個作者分別計算,最后取平均。與之前的工作 [5, 27, 46] 一致,在 IAM 數據集上的實驗分為四種不同的場景:IV-S、IV-U、OOV-S、OOV-U。在這四種場景中,OOV-U 是最具挑戰性的情況,因為目標風格和詞語在訓練過程中完全未見過。對于 CVL 數據集,直接報告了所有方法在測試集上的結果。
下表1中報告了 IAM 數據集上的定量結果。
可以觀察到,One-DM 在所有設置中都優于所有競爭對手。特別是,它在所有場景中都顯著超越了一次性方法。令人印象深刻的是,在 IV-S 和 OOV-S 設置中,One-DM 相比于使用 15 倍更多參考樣本進行風格指導的少量樣本方法(如 GANwriting、HWT、VATr)也具有明顯優勢。即使在最具挑戰性的 OOV-U 場景中,One-DM 也大幅領先于第二好的方法 VATr(102.75 對 108.76),展示了One-DM 在風格化手寫文本生成中的卓越性能。類似地,本文的方法在 CVL 數據集上也優于 HWT 和 VATr,達到了最低的 FID 分數,如表4所示。
下圖4中提供了定性結果,以直觀地解釋One-DM的優勢。
GANwriting 難以捕捉參考樣本的風格模式,如字符傾斜,并且偶爾會產生不清晰的字符形狀。HiGAN+ 更一致地生成了內容正確的字符,但生成詞語中的字符間距缺乏真實性。
WordStylist 通常生成帶有明顯背景噪聲的圖像。HWT 和 VATr 在內容準確性和風格模仿方面可以生成令人滿意的手寫詞語;然而,它們的缺點是傾向于生成更平滑的字符外觀。與 HWT 和 VATr 相比,合成的樣本在字符墨水顏色和筆畫厚度上更為真實。然而, One-DM 生成的一些樣本在墨水顏色上明顯不同。下圖5 中展示了本文方法與少量樣本方法之間的更多定性比較。
風格無關手寫文本生成:進一步評估了One-DM 在生成現實的手寫文本圖像時是否能夠忽略風格模仿。為此計算了 IAM 測試集上的 FID 和 GS,條件與 ScrabbleGAN [13] 相同(FID: 20.72, GS: 2.56×10?2),能夠生成具有隨機樣式的手寫文本。具體而言,每種方法生成 25k 個隨機樣本以計算與 25k 個測試集樣本的 FID,以及 5k 個隨機樣本進行 GS 計算,與 5k 個測試集樣本進行比較。如前面表1所示,One-DM 在 FID 和 GS 指標上都取得了最佳結果,進一步展示了其生成更高質量手寫文本圖像的能力。
分析
一系列消融實驗以分析One-DM。更多分析內容包括在不同風格背景下的泛化評估、通過 OCR 性能進行的生成質量評估、失敗案例分析以及不同設計(如高頻濾波器、風格-內容融合機制和風格輸入樣本長度)的效果。
拉普拉斯分支和門控機制的定量評估
在 IAM 數據集上進行了各種消融實驗,以評估方法中不同組件的效果。定量結果見下表2。發現:(1) 同時引入拉普拉斯分支和門控機制提高了生成手寫文本圖像的質量,分別使 FID 提高了 3.92 和 2.71。(2) 將拉普拉斯分支與門控機制結合使用進一步提升了生成性能。
拉普拉斯分支和門控機制的定性評估
為了進一步分析One-DM 中的各個模塊,進行了視覺消融實驗。如上表2所示,可以觀察到,首先,添加門控機制后,背景噪聲可以得到一定程度的抑制,結果是字符背景相對干凈。然后,單獨添加拉普拉斯分支幫助模型學習連筆連接和其他風格模式。最后,本文的方法整合了拉普拉斯分支和門控機制,能夠生成最高質量的手寫文本圖像。
拉普拉斯分支的討論
突破性進展!只需單張參考圖,完美仿寫各種手寫內容!華南理工等開源One-DM-AI.x社區
關于從單個參考樣本中學習風格的討論
對 One-DM 僅憑一個參考樣本就能超越少量樣本方法的生成性能感到相當驚訝。提供了潛在原因的分析如下。首先,One-DM 學習了一個有意義的風格潛在空間,其中可以基于已見風格生成新的風格(參見下圖6)。然后,通過我們的風格增強模塊,One-DM 有效地從單個示例中提取風格特征,并將其映射到特征空間中接近示例寫作者的位置,從而生成高質量的風格化手寫文本圖像。
與最先進工業方法的比較
為了突出本文方法的優勢,將 One-DM 與領先的工業圖像生成方法進行比較,這些方法在極大的數據集上進行訓練(包括大量以文本為中心的圖像),包括兩種顯著的文本到圖像生成方法:DALL-E3和 Stable Diffusion (SD),以及兩種流行的風格遷移方法:Artbreeder 和 IP-Adapter(IP-A.),在 IAM 數據集上進行比較。
如下圖7(a) 所示,本文的方法在風格模仿和內容保留方面優于工業方法。IP-A. 的表現最差,常常生成失真圖像。Artbreeder 能夠復制風格樣本中的筆觸顏色,但在內容保留方面表現不佳。DALL-E3 和 SD 能夠生成內容準確的字符,但通常在風格細節上與參考不匹配,如字符間距和筆觸寬度,其中 SD 常常生成額外的背景。此外,還比較了 Fzshouji,一個專為中文手寫生成設計的先進工業方法。如圖7(b) 所示,本文的方法在復制字符細節和墨水顏色方面優于 Fzshouji。
應用到其他語言
本節評估了One-DM 是否可以用于生成除英語以外的其他語言。進一步在中文(即 ICDAR2013 競賽數據庫)和日文(即 UP_Kuchibue 數據庫)數據集上進行了實驗。使用 FID 評估每個作者生成樣本的質量,然后取平均。
對于中文手寫字符生成任務,如下表5所示,發現One-DM 顯著優于第二好的方法,FID 低了 7.37。從下圖8(a) 中可以觀察到,One-DM 生成的字符在幾何形狀和字符傾斜度上與目標圖像非常匹配。相比之下,HWT 和 VATr 生成的手寫文字存在明顯的偽影,如模糊和結構塌陷。GANwriting 經常遺漏筆畫。WordStylist 有時難以準確模仿風格模式,并傾向于生成帶有錯誤部首的字符。
上面表5 和圖8(b) 進一步驗證了 One-DM 在日文手寫生成中的有效性。同樣達到了最低的 FID 分數,生成的日文樣本在內容保留和風格模仿方面都表現出色。
進一步探討了為什么只需一個樣本的基于擴散的方法(如One-DM 和 WordStylist)在生成中文和日文字符方面明顯優于少量樣本的基于 GAN 的方法(如 GANwriting、HWT 和 VATr)。GAN 基礎方法在中文和日文字符上的較低性能可能源于其原始卷積架構在處理復雜幾何的中文和日文字符時遇到困難,正如 [60] 所指出的那樣。相比之下,One-DM 將中文和日文字符的生成過程分解為更簡單的步驟。例如,如下表6 所示,在擴散生成過程的早期階段,模型首先嘗試生成一個粗略的中文手寫字符。然后,在條件指導下繼續細化書寫風格(如字符形狀和筆畫顏色),直到合成出令人滿意的手寫文字。
總結展望
本文介紹了一種新穎的 One-DM 方法用于手寫文本生成,只需一個風格參考即可生成逼真的手寫文本圖像。通過結合風格參考中的高頻成分來增強風格提取。對于具有明顯風格模式的高頻成分,采用拉普拉斯對比學習來捕捉更具判別性的風格特征。此外,門控機制提高了參考信息的傳遞效果,減少了背景噪聲。One-DM 在多種語言腳本的生成中優于少樣本方法。未來計劃探索 One-DM 在字體生成和矢量字體創建任務中的潛力。
本文轉自 AI生成未來 ,作者:AI生成未來
