AI高仿你的筆跡只需1個(gè)詞,Deepfake文字版來了,網(wǎng)友:以假亂真
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
終于,我小學(xué)時(shí)的夢想有人實(shí)現(xiàn)了!
只需要我拍下自己的筆跡,AI就能幫我謄抄英語作業(yè),畫風(fēng)“完全一致”的那種:

甚至幫別人抄作業(yè)也沒問題……

簡直吊打一批只能仿手寫、價(jià)格還動(dòng)輒幾百上千的“作業(yè)神器”。

咳咳,劃重點(diǎn):
雖然功能很強(qiáng)大,但這可不是給你們抄英語作業(yè)的。(作業(yè)就得認(rèn)真做!)
這是Facebook AI最新出品的“文字風(fēng)格刷”(TextStyleBrush),它只需要一張筆跡的照片,就能完美還原出一整套文本字跡來。
不僅能移花接木,憑空將“醬油瓶”變成“茶壺”:

還能直接實(shí)現(xiàn)風(fēng)格替換,讓蔬果店里的所有印刷字都變成手寫體:

這樣看來,現(xiàn)在就連照片文字,也不一定是真實(shí)的了。
比格式刷還強(qiáng):文本也能換
在實(shí)際使用過程中,TextStyleBrush真的就是個(gè)格式刷,哪里需要刷哪里。
它真正厲害的就是模擬手寫字體。
只需輸入一段文本內(nèi)容,加上你的筆跡,1個(gè)單詞即可,它就能生成“手寫版”。

這個(gè)效果,用肉眼看真的是分辨不出真?zhèn)危?/p>
把菜場中價(jià)簽的印刷體都換成手寫體的過程中,它還能識別出不是印刷體的樣本,自動(dòng)跳過轉(zhuǎn)換合成。

△兩個(gè)手寫標(biāo)簽并沒有被更改
模擬特定字體格式時(shí),TextStyleBrush表現(xiàn)也很不錯(cuò)。
包括海報(bào)、垃圾桶、路牌、飲料瓶、店面裝飾……各種文字的風(fēng)格都能handle:

除了直觀的效果,開發(fā)人員對合成圖片也做了數(shù)據(jù)上的分析。
TextStyleBrush生成的圖片在合成誤差(MSE)上大幅降低,峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)也提高不少。

在文字識別的準(zhǔn)確性上,TextStyleBrush在三組數(shù)據(jù)集中的表現(xiàn)都不錯(cuò):
準(zhǔn)確率都高達(dá)95%以上。

拿GAN改一改,真假文字難辨認(rèn)
據(jù)Facebook介紹,“文字風(fēng)格刷”TextStyleBrush是一個(gè)基于自監(jiān)督方法訓(xùn)練的模型,可以對相同文本內(nèi)容的文字進(jìn)行風(fēng)格轉(zhuǎn)換,就像格式刷一樣。

當(dāng)然,不只是Word的格式刷,它甚至能直接對照片中的文字進(jìn)行替換,因此模型還需要學(xué)習(xí)文字識別和圖像分割的方法。

△逆光場景也不在話下
為了同時(shí)實(shí)現(xiàn)圖像分割和文字風(fēng)格轉(zhuǎn)換,TextStyleBrush模型基于StyleGAN2進(jìn)行了設(shè)計(jì),后者能生成非常逼真的圖像照片。
然而,StyleGAN2存在兩個(gè)問題:
- 首先,它生成圖像的方式是“隨便亂打”的,也就是沒辦法控制輸出圖像特征。但TextStyleBrush必須要生成指定文本的圖像。
- 其次,StyleGAN2的整體風(fēng)格不受控制,但TextStyleBrush中的風(fēng)格涉及大量信息組合,包括顏色、尺度和風(fēng)格轉(zhuǎn)換等特征,甚至是帶有個(gè)人特色的筆跡細(xì)節(jié)差異。
為此,TextStyleBrush首先通過將文本信息和風(fēng)格作為兩個(gè)“附加條件”控制模型輸出,來解決模型隨機(jī)生成圖像的問題。

然后,為了進(jìn)一步更精細(xì)地控制文本的風(fēng)格特征,還會(huì)提取神經(jīng)網(wǎng)絡(luò)層中的各種風(fēng)格信息,并將這些信息注入文本生成器中,便于從各種尺度(顏色、整體風(fēng)格、細(xì)節(jié))上控制文字的風(fēng)格。

除此之外,由于不同的圖片分辨率不同,生成器還必須生成和替換區(qū)域分辨率相似的文字。
為此,這一模型加入了能夠控制高低分辨率的結(jié)構(gòu),使得生成的文字圖像能匹配輸入圖像的分辨率。
就像這樣,替換前后也不會(huì)出現(xiàn)字體清晰度差異大的問題:

但不同于照片,文字的風(fēng)格其實(shí)要更加自由,所以有時(shí)候畫風(fēng)的真實(shí)性不好說。
為此,在訓(xùn)練的時(shí)候,F(xiàn)acebook引入了一種創(chuàng)新的自監(jiān)督訓(xùn)練方法,結(jié)合風(fēng)格分類、文本識別(OCR)和GAN三種模型來保留輸入的風(fēng)格/文字內(nèi)容,再?zèng)Q定要替換哪個(gè)。

例如,在文本識別上,讓TextStyleBrush生成文本圖像后,模型會(huì)用一個(gè)預(yù)訓(xùn)練文本識別結(jié)構(gòu)來“判斷”圖像的文字內(nèi)容,并給它打分。
事實(shí)證明,這樣訓(xùn)練出來的模型,確實(shí)很好用。
網(wǎng)友:以假亂真?我真有點(diǎn)擔(dān)心……
合成人臉已經(jīng)玩太多了,合成筆跡還是頭一回。
而且它的效果真的還不錯(cuò)!
所以,TextStyleBrush一經(jīng)發(fā)布,就引來了很多人的圍觀。
已經(jīng)有網(wǎng)友開始想象它的用途了:
歡迎來到花式簽名的世界!

LeCun也轉(zhuǎn)發(fā)了一波。

不過,能看不能玩實(shí)在是太難受了,有手癢的網(wǎng)友就跑來提問:
TextStyleBrush會(huì)對大眾開放使用嗎?

這自然也就引出來一個(gè)會(huì)引起爭議的點(diǎn):
合成后的筆跡足以以假亂真,如果被濫用或惡意使用怎么辦?
假設(shè)任何一個(gè)人的筆跡都能被非常輕松地合成,那許多需要簽字的場合該怎么辦呢?
例如,有網(wǎng)友表示,要是連醫(yī)生們的“草書”處方都能模仿……

而除了安全隱私問題上的擔(dān)憂,這對字體設(shè)計(jì)師來說也不是個(gè)好消息。

畢竟各款字體其實(shí)都是有版權(quán)的,如果可以被輕松模擬出來,那豈不是盜版滿天飛,甚至連作者本尊都分辨不出來真?zhèn)巍?/p>
有網(wǎng)友就表示:這離真假難辨的反烏托邦世界更近了一點(diǎn)……

對此,F(xiàn)acebook的CTO作出了回應(yīng):
因?yàn)榭赡軙?huì)被用來偽造筆跡,所以我們只發(fā)布論文和數(shù)據(jù)集,源代碼并不會(huì)開源。
分享研究和數(shù)據(jù)集,也更多是為了預(yù)防文本版Deepfakes。

你覺得呢?
TextStyleBrush數(shù)據(jù)集:
https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset
論文地址:
https://scontent-fml2-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf