螞蟻安全實(shí)驗(yàn)室10篇論文被CCF-A類頂會(huì)收錄,探索從算法角度實(shí)現(xiàn)AI可信
2022年,螞蟻安全實(shí)驗(yàn)室已有10篇論文被國(guó)際頂級(jí)會(huì)議及期刊收錄,方案質(zhì)量受到專家學(xué)者肯定。近年來(lái),螞蟻集團(tuán)通過(guò)舉辦學(xué)術(shù)競(jìng)賽、設(shè)立專項(xiàng)基金等方式,以產(chǎn)學(xué)研合作的途徑不斷在論文、專利等方面取得進(jìn)展,突顯了這家起于支付的公司對(duì)安全科技的科研重視力度。據(jù)知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)媒體IPR daily統(tǒng)計(jì),2021年螞蟻在AI安全可信關(guān)鍵技術(shù)方面專利授權(quán)數(shù)量位列全球第一。
隨著深度學(xué)習(xí)的成熟化規(guī)模化,人工智能技術(shù)廣泛應(yīng)用在醫(yī)療、交通、城市管理等多個(gè)領(lǐng)域中,發(fā)揮著越來(lái)越不可替代的作用。但另一方面,其潛在的風(fēng)險(xiǎn)與隱患也開(kāi)始顯露,全球范圍內(nèi)逐步涌現(xiàn)出對(duì)于AI安全的信任焦慮。
如何建立人與系統(tǒng)的互信,讓人工智能技術(shù)更好更安全地為人所用?螞蟻集團(tuán)長(zhǎng)期致力于安全科技研究,并成立了九大安全實(shí)驗(yàn)室,聚焦在可信AI、系統(tǒng)安全、數(shù)據(jù)安全等前沿安全技術(shù)。今年上半年,螞蟻安全實(shí)驗(yàn)室圍繞可信AI的可解釋性、魯棒性、公平性,與清華大學(xué)、上海交大學(xué)、中科院等高校合作,在計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、自然語(yǔ)言生成等領(lǐng)域開(kāi)展新型課題研究,多篇論文被CVPR、KDD、ECCV等CCF A類頂級(jí)會(huì)議及期刊收錄,本文將對(duì)部分論文進(jìn)行分享解讀。
一、可信計(jì)算機(jī)視覺(jué)算法探索與實(shí)踐
關(guān)于計(jì)算機(jī)視覺(jué)在當(dāng)前的發(fā)展趨勢(shì),中山大學(xué)網(wǎng)絡(luò)空間安全學(xué)院院長(zhǎng)操曉春老師表示,關(guān)于計(jì)算機(jī)視覺(jué)在當(dāng)前的發(fā)展趨勢(shì),中山大學(xué)網(wǎng)絡(luò)空間安全學(xué)院院長(zhǎng)操曉春教授表示,“計(jì)算機(jī)視覺(jué)作為人工智能最活躍的研究領(lǐng)域之一,正與國(guó)民經(jīng)濟(jì)全場(chǎng)景深度融合創(chuàng)新。一方面,計(jì)算機(jī)視覺(jué)算法的魯棒性不斷增強(qiáng),正從公知的實(shí)驗(yàn)室場(chǎng)景走向現(xiàn)實(shí)客觀世界的復(fù)雜場(chǎng)景,從千奇百怪的票據(jù)、表單、卡證,到屢禁不止的賭博、暴恐、色情;另一方面,計(jì)算機(jī)視覺(jué)算法依賴的深度學(xué)習(xí)模型具有對(duì)抗性擾動(dòng)上的內(nèi)生脆弱性,其對(duì)抗攻擊與防御研究如火如荼,啟發(fā)實(shí)驗(yàn)室發(fā)明了水印疫苗,從一種全新視角防止去除可見(jiàn)版權(quán)水印。“
◆螞蟻聯(lián)合浙大提出“基于標(biāo)簽關(guān)系樹(shù)的層級(jí)多粒度殘差分類網(wǎng)絡(luò)”,論文收錄于CVPR2022
在《建模客觀世界豐富語(yǔ)義知識(shí)的層級(jí)多粒度標(biāo)簽分類算法》一文中,該團(tuán)隊(duì)研究發(fā)現(xiàn)基于數(shù)據(jù)驅(qū)動(dòng)的傳統(tǒng)算法不能有效映射現(xiàn)實(shí)客觀世界主體具有的豐富關(guān)系。為此,針對(duì)賭博、暴恐、色情等現(xiàn)實(shí)場(chǎng)景中的多元化風(fēng)險(xiǎn)要素,他們提出了一種基于標(biāo)簽關(guān)系樹(shù)的層級(jí)多粒度殘差分類網(wǎng)絡(luò),可以有效利用具有不同層級(jí)粒度標(biāo)簽樣本的知識(shí),目前已在公開(kāi)數(shù)據(jù)集獲得了比同類方法更優(yōu)的結(jié)果。
基于該標(biāo)簽體系設(shè)計(jì)復(fù)合損失函數(shù),首先構(gòu)建層級(jí)多粒度標(biāo)簽體系,在訓(xùn)練時(shí)層級(jí)間的知識(shí)可以進(jìn)行有效遷移,即父子關(guān)系知識(shí)、兄弟關(guān)系知識(shí)遷移;網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)層面,父類層級(jí)的專有屬性可以利用殘差結(jié)構(gòu)的方式被子類繼承。多方實(shí)驗(yàn)結(jié)果表明,HRN有效利用層級(jí)知識(shí)的同時(shí)達(dá)到了SOTA(state-of-the-art)的實(shí)驗(yàn)結(jié)果。
此外,實(shí)際業(yè)務(wù)應(yīng)用的元素類別較為復(fù)雜,以層級(jí)多粒度標(biāo)簽的方式進(jìn)行組織,能夠有效建模層級(jí)知識(shí)的同時(shí),滿足業(yè)務(wù)在不同場(chǎng)景下對(duì)不同層級(jí)粒度標(biāo)簽的需求。相對(duì)地,傳統(tǒng)分類算法只能利用某一層級(jí)的樣本。
◆螞蟻聯(lián)合中科院首次提出去水印防御機(jī)制,論文收錄于ECCV2022
可見(jiàn)水印作為一種常見(jiàn)的安全工具,已被廣泛應(yīng)用于保護(hù)數(shù)字圖像的版權(quán)。然而,最新的數(shù)據(jù)表明,深度神經(jīng)網(wǎng)絡(luò) (DNN) 能夠在不損壞其宿主圖像的前提下去除可見(jiàn)水印,這種去水印技術(shù)對(duì)圖像的所有權(quán)構(gòu)成了極大的威脅。
受 DNN 在對(duì)抗性擾動(dòng)上的脆弱性的啟發(fā),該團(tuán)隊(duì)針對(duì)對(duì)抗性機(jī)器學(xué)習(xí),在《水印疫苗:防止去水印的對(duì)抗攻擊》中共同提出了一種新穎的防御機(jī)制。作為首個(gè)提出用于盲水印去除網(wǎng)絡(luò)的水印不可知擾動(dòng)的團(tuán)隊(duì),他們實(shí)際上優(yōu)化了對(duì)主機(jī)圖像的不易察覺(jué)的對(duì)抗性擾動(dòng),以主動(dòng)攻擊水印去除網(wǎng)絡(luò),稱為水印疫苗。
具體而言,該團(tuán)隊(duì)提出了兩種類型的疫苗,其中,破壞水印疫苗 (DWV) 在通過(guò)水印去除網(wǎng)絡(luò)后會(huì)導(dǎo)致主機(jī)圖像與水印一起破壞。相比之下,隱藏水印疫苗(HWV) 以另一種方式工作,試圖保持水印不被去除并且仍然引人注目。大量實(shí)驗(yàn)證明了該團(tuán)隊(duì)的 DWV/HWV 在防止水印去除方面的有效性,尤其是在各種水印去除網(wǎng)絡(luò)上。此外,水印疫苗還可以抵抗一些常見(jiàn)的圖像處理操作。
◆螞蟻聯(lián)合上海交大提出“面向視覺(jué)豐富文檔的多模態(tài)布局理解神經(jīng)網(wǎng)絡(luò)”,論文收錄于CVPR2022
和普通的文檔圖像不同,在對(duì)風(fēng)險(xiǎn)網(wǎng)絡(luò)進(jìn)行巡檢的業(yè)務(wù)中,往往存在更為復(fù)雜的數(shù)據(jù),諸如票據(jù)、表單、卡證等,其文本位置通常無(wú)法按照傳統(tǒng)的“從左至右“或者”從上到下“進(jìn)行簡(jiǎn)單排序,而是存在豐富的層次結(jié)構(gòu)。另一個(gè)局限性是在于許多現(xiàn)有的模型使用了長(zhǎng)度固定的位置編碼,這會(huì)直接導(dǎo)致模型在訓(xùn)練完成后無(wú)法處理更長(zhǎng)的輸入序列,影響文檔理解的結(jié)果。
針對(duì)上述兩個(gè)缺陷,該團(tuán)隊(duì)提出了關(guān)注文本閱讀順序的多模態(tài)文檔理解XYLayoutLM模型方案,希望改善文檔在自動(dòng)化讀取過(guò)程中,表單結(jié)構(gòu)復(fù)雜、文本過(guò)長(zhǎng)等導(dǎo)致的錯(cuò)誤理解問(wèn)題,提高內(nèi)容讀取的準(zhǔn)確率,從而提升全網(wǎng)巡檢業(yè)務(wù)中的網(wǎng)站登陸頁(yè)面理解、風(fēng)險(xiǎn)行業(yè)定性等各項(xiàng)子業(yè)務(wù)。同時(shí)通過(guò)算法創(chuàng)新,生成不同的合理閱讀順序,并考慮可變長(zhǎng)度的文本輸入,以提升模型的魯棒性,幫助模型更好得理解圖像訊息。該方法比基準(zhǔn)方法在FUNSD和XFUN兩個(gè)數(shù)據(jù)集上的指標(biāo)高出了2%左右,現(xiàn)已被應(yīng)用于螞蟻集團(tuán)的自動(dòng)化表單理解業(yè)務(wù)中。
二、面向穩(wěn)定性和魯棒性的可信機(jī)器學(xué)習(xí)研究
“隨著機(jī)器學(xué)習(xí)技術(shù)的廣泛應(yīng)用,我們面臨著大量數(shù)據(jù)偏差、樣本外分布等問(wèn)題,嚴(yán)重影響了各類決策模型的穩(wěn)定性和魯棒性,“中科院自動(dòng)化所副研究員劉強(qiáng)談到,“未來(lái)的機(jī)器學(xué)習(xí)算法需要更多地挖掘穩(wěn)定、魯棒的因果性特征,消除數(shù)據(jù)中存在的偏差與歧視,實(shí)現(xiàn)公平、魯棒、可信的人工智能。”
◆螞蟻聯(lián)合北大提出針對(duì)微調(diào)算法的高一致性概念,論文收錄于ICLR2022
該團(tuán)隊(duì)在《logit anchoring:一種樣本層面高一致性的后門(mén)學(xué)習(xí)算法》中提出了一種高一致性的小樣本模型微調(diào)算法。工業(yè)場(chǎng)景中,神經(jīng)網(wǎng)絡(luò)可能會(huì)因?yàn)榘踩珕?wèn)題或者需求變化,需要對(duì)網(wǎng)絡(luò)進(jìn)行高頻的微調(diào)。而傳統(tǒng)的微調(diào)算法,只關(guān)注微調(diào)前后模型的準(zhǔn)確率是否下降,沒(méi)有顯式考慮微調(diào)過(guò)程中的模型在樣本級(jí)別上的行為一致性。經(jīng)研究發(fā)現(xiàn),除了整體的準(zhǔn)確率,還存在樣本級(jí)別的一致性問(wèn)題:以分類系統(tǒng)為例,即使分類正確率保持不變,但是模型微調(diào)后可能會(huì)出現(xiàn)出錯(cuò)樣本的特點(diǎn)改變,不同類的預(yù)測(cè)正確率改變等樣本級(jí)別的行為變化。
因此,該團(tuán)隊(duì)首次提出樣本一致性的概念并提出了系統(tǒng)樣本一致性的衡量方案。在需求輕微變動(dòng)的時(shí)候,用原始模型在少數(shù)樣本上預(yù)測(cè)中間狀態(tài),來(lái)監(jiān)督模型的微調(diào),保證模型在預(yù)測(cè)正確標(biāo)簽的基礎(chǔ)上,盡量少修改與更新無(wú)關(guān)的特征表示,進(jìn)而以較低計(jì)算代價(jià),來(lái)獲得高一致性的微調(diào)后模型,減少因?yàn)槲⒄{(diào)數(shù)據(jù)不足造成的性能損失,實(shí)現(xiàn)低代價(jià)輕量級(jí)頻繁的需求更新和微調(diào)。
◆螞蟻聯(lián)合中科院提出“面向風(fēng)控樣本有偏場(chǎng)景的拒絕感知多任務(wù)網(wǎng)絡(luò)”,論文收錄于TKDE2022
在風(fēng)控決策、核身決策等場(chǎng)景中,所有的觀測(cè)標(biāo)簽都會(huì)受到?jīng)Q策策略的影響,從而存在選擇偏差問(wèn)題。因此,該團(tuán)隊(duì)基于因果推斷和多任務(wù)學(xué)習(xí)進(jìn)行算法創(chuàng)新,引入全局信息,提出了拒絕感知的反事實(shí)多任務(wù)網(wǎng)絡(luò)RMT-net,并應(yīng)用在支付寶登錄核身推薦場(chǎng)景中,比其他SOTA算法在準(zhǔn)確率上提高3%,最重提升用戶登錄成功率0.1%,有效提升了模型的穩(wěn)定性、準(zhǔn)確性。
多任務(wù)學(xué)習(xí)方法并不能直接在拒絕推斷問(wèn)題中取得很好的建模效果。團(tuán)隊(duì)分析了其中的原因并提出了拒絕感知的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),可以大幅提升多任務(wù)學(xué)習(xí)拒絕推斷問(wèn)題中的建模效果,并遠(yuǎn)超現(xiàn)有的常規(guī)金融風(fēng)控?cái)?shù)據(jù)建模手段。
在進(jìn)一步將反事實(shí)學(xué)習(xí)和多任務(wù)學(xué)習(xí)結(jié)合后,該團(tuán)隊(duì)提出了拒絕感知的反事實(shí)多任務(wù)網(wǎng)絡(luò),融合兩種學(xué)習(xí)方法的優(yōu)勢(shì),并利用拒絕感知模塊對(duì)兩種學(xué)習(xí)方法進(jìn)行賦能,進(jìn)一步提升模型性能,使模型在多變的樣本特征分布下均可取得穩(wěn)定、準(zhǔn)確的預(yù)測(cè)效果。
三、探索自然語(yǔ)言生成與可解釋AI的結(jié)合潛力
北京航空航天大學(xué)莊福振研究員介紹:“隨著人工智能在社會(huì)生活中越來(lái)越廣泛和深入的應(yīng)用,AI決策的透明化和可解釋性成為AI領(lǐng)域非常熱門(mén)的話題。而最直觀的解釋方法,可能就是讓機(jī)器自己陳述理由,比如自動(dòng)生成一段邏輯清晰的語(yǔ)言來(lái)講清楚。因此,針對(duì)可解釋AI和自然語(yǔ)言生成(NLG)這兩個(gè)前沿課題的有機(jī)結(jié)合,有著廣闊的應(yīng)用前景。”
◆螞蟻聯(lián)合北航提出“基于邏輯的可解釋性文本生成神經(jīng)網(wǎng)絡(luò)”,論文收錄于KDD2022
Data2Text是指數(shù)據(jù)到文本的生成,可以將數(shù)據(jù)背后隱藏的事實(shí)和邏輯,用人比較容易理解的文本描述出來(lái),在學(xué)術(shù)界和工業(yè)界都有大量的研究和應(yīng)用。目前Data2Text文本生成算法聚焦在表面的客觀事實(shí)描述生成,但是忽略了輸入數(shù)據(jù)和目標(biāo)文本之間的潛在邏輯相關(guān)性。此外,識(shí)別這種邏輯關(guān)聯(lián)并用自然語(yǔ)言描述它們?cè)诠I(yè)界需求較大,但尚未被深入研究。
因此在該工作中,該團(tuán)隊(duì)針對(duì)反洗錢(qián)應(yīng)用場(chǎng)景介紹了一種基于邏輯圖譜的Data2Text方法,首先將人工知識(shí)以圖譜的方式進(jìn)行表達(dá),不僅利于知識(shí)的管理,也利于后續(xù)模型的利用;同時(shí)將圖譜中每個(gè)用戶滿足的條件對(duì)應(yīng)的路徑以比較完備的方式加入到模型的輸入中,即圖中的mata_path,這樣使模型能充分利用專家知識(shí);該方法還利用attention的方式回溯生成的文字和哪條路徑有關(guān),具備較好的可解釋性;另外采用知識(shí)檢索器和規(guī)則約束可以更好的利用專家知識(shí)和動(dòng)態(tài)選擇相應(yīng)知識(shí),也可以自我修正生產(chǎn)的錯(cuò)誤字或詞,使結(jié)果更加精確。實(shí)驗(yàn)結(jié)果表明,提出的方法相比之前的方法效果有較大提升。
近幾年螞蟻安全實(shí)驗(yàn)室持續(xù)在可信AI技術(shù)上投入并且得到了應(yīng)用成果,不僅在欺詐、洗錢(qián)、賭博、營(yíng)銷(xiāo)安全、數(shù)據(jù)安全等多個(gè)風(fēng)控場(chǎng)景下落地大規(guī)模應(yīng)用,還研發(fā)了業(yè)界首個(gè)工業(yè)級(jí)可信AI檢測(cè)平臺(tái)。未來(lái)可信AI技術(shù)的發(fā)展需要繼續(xù)產(chǎn)學(xué)研界結(jié)合的方式,開(kāi)展面向真實(shí)場(chǎng)景的創(chuàng)新技術(shù)研究,才能走得更遠(yuǎn)。
入選論文附錄:
1、《一種基于邏輯的可解釋性文本生成神經(jīng)網(wǎng)絡(luò)》2、《拒絕感知網(wǎng)絡(luò):面向風(fēng)控樣本有偏場(chǎng)景的拒絕感知多任務(wù)網(wǎng)絡(luò)》:
https://ieeexplore.ieee.org/abstract/document/9785714/3、《XYLayoutLM:面向視覺(jué)豐富文檔的多模態(tài)布局理解神經(jīng)網(wǎng)絡(luò)》:
https://arxiv.org/pdf/2203.06947.pdf4、《logit anchoring:一種樣本層面高一致性的后門(mén)學(xué)習(xí)算法》:
https://iclr.cc/virtual/2022/poster/62565、《螞蟻集團(tuán)OLR2021多語(yǔ)種識(shí)別雙料冠軍方案》
6、《使用符號(hào)驗(yàn)證框架設(shè)計(jì)領(lǐng)域優(yōu)化的神經(jīng)網(wǎng)絡(luò)》:
https://www.atatech.org/paper/2421?spm=ata.25287382.0.0.3f6875360QxyRF
7、《一種基于噪聲語(yǔ)義引導(dǎo)的雙向年齡變化方法》:
https://ieeexplore.ieee.org/document/9745962
8、《基于頻域分析的隱私保護(hù)人臉識(shí)別方法》:https://aaai-2022.virtualchair.net/poster_aaai370
9、《建模客觀世界豐富語(yǔ)義知識(shí)的層級(jí)多粒度標(biāo)簽分類算法》:
https://arxiv.org/pdf/2201.03194.pdf10、《水印疫苗:防止去水印的對(duì)抗攻擊》