如何阻止針對(duì)AI模型的對(duì)抗性攻擊
人工智能(AI)技術(shù)的進(jìn)步已對(duì)人類(lèi)社會(huì)產(chǎn)生了重大影響,但也引起了研究人員的擔(dān)憂,因?yàn)殡S著AI技術(shù)的深入應(yīng)用,與之相應(yīng)的對(duì)抗性攻擊也變得越來(lái)越普遍。這些攻擊可能會(huì)對(duì)AI系統(tǒng)的安全性和可靠性造成威脅,甚至產(chǎn)生破壞性的后果。本文將對(duì)AI模型應(yīng)用中的對(duì)抗性攻擊及其威脅進(jìn)行分析,并探討一些有效的防御方法。
對(duì)抗性攻擊的類(lèi)型
對(duì)抗性攻擊是指利用AI模型中的不足和漏洞,破壞AI模型用來(lái)學(xué)習(xí)的數(shù)據(jù),并生成能夠欺騙模型的對(duì)抗樣本。這些樣本看起來(lái)與正常數(shù)據(jù)非常相似,但是卻能夠?qū)е履P彤a(chǎn)生錯(cuò)誤的輸出結(jié)果。目前,對(duì)抗性攻擊已經(jīng)成為了人工智能技術(shù)應(yīng)用領(lǐng)域中一個(gè)非常重要的研究方向。
在對(duì)抗性攻擊中,攻擊者會(huì)用多種方法生成對(duì)抗樣本,例如快速梯度符號(hào)方法(FGSM)、基于梯度的優(yōu)化方法(BIM)、投影算法攻擊(PGD)等。這些方法都是通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng),從而欺騙AI模型。根據(jù)威脅分子了解AI模型的不同方式,我們可以將AI對(duì)抗性攻擊分為以下兩類(lèi):
1、白盒攻擊
在白盒攻擊中,威脅分子已經(jīng)充分了解AI模型的內(nèi)部工作原理,知道其規(guī)格、訓(xùn)練數(shù)據(jù)、處理技術(shù)和詳細(xì)參數(shù),能夠設(shè)計(jì)專(zhuān)門(mén)針對(duì)該模型的對(duì)抗性攻擊。
白盒攻擊的第一步是改變?cè)加?xùn)練數(shù)據(jù),修改后的數(shù)據(jù)仍將與原始數(shù)據(jù)非常相似,但足以導(dǎo)致AI模型生成不準(zhǔn)確的結(jié)果。在攻擊之后,威脅分子還會(huì)通過(guò)為模型反饋對(duì)抗性示例(旨在導(dǎo)致模型出錯(cuò)的失真輸入)來(lái)評(píng)估模型的有效性,并分析輸出。結(jié)果越不準(zhǔn)確,攻擊就越成功。
2、黑盒攻擊
如果攻擊者只能獲取AI模型的輸入和輸出,無(wú)法獲取其內(nèi)部結(jié)構(gòu)和參數(shù),就會(huì)使用黑盒攻擊方法。在這種攻擊場(chǎng)景下,攻擊者需要使用一些基于元模型或遷移學(xué)習(xí)的技術(shù)來(lái)生成對(duì)抗性樣本。黑盒攻擊的第一步是選擇AI模型的輸入目標(biāo)。然后,通過(guò)為數(shù)據(jù)添加精心設(shè)計(jì)的干擾信號(hào)來(lái)生成惡意輸入,這些干擾信號(hào)是人眼看不見(jiàn)的,卻能導(dǎo)致AI模型功能失靈。模型生成的結(jié)果可以幫助攻擊者不斷修改版本,直到模型會(huì)反饋他們希望實(shí)現(xiàn)的對(duì)抗性結(jié)果。
對(duì)抗性攻擊的手段
惡意攻擊者可以使用不同的技術(shù)來(lái)執(zhí)行對(duì)抗性攻擊,主要包括:
1、投毒
攻擊者可以操縱(毒化)AI模型的一小部分輸入數(shù)據(jù),以破壞其訓(xùn)練數(shù)據(jù)集和準(zhǔn)確性。最常見(jiàn)的投毒形式是后門(mén)投毒,即使極少一部分訓(xùn)練數(shù)據(jù)受到影響。在很長(zhǎng)時(shí)間里,AI模型仍然可以繼續(xù)給出高度準(zhǔn)確的結(jié)果,直到它在接觸特定的觸發(fā)器時(shí)被“激活”而功能失靈。
2、逃避
這種技術(shù)的攻擊危害較大,因?yàn)樗梢酝ㄟ^(guò)規(guī)避AI的安全系統(tǒng)來(lái)避免被發(fā)現(xiàn)。大多數(shù)AI模型配備了異常檢測(cè)系統(tǒng)。而逃避技術(shù)充分利用了針對(duì)這些系統(tǒng)的對(duì)抗性實(shí)例。對(duì)自動(dòng)駕駛汽車(chē)或醫(yī)療診斷模型等應(yīng)用領(lǐng)域,使用逃避攻擊帶來(lái)的不準(zhǔn)確結(jié)果可能會(huì)釀成嚴(yán)重后果。
3、傳遞
使用這種技術(shù)的威脅分子不需要事先了解AI模型的參數(shù)。他們使用在過(guò)去成功攻陷的模型來(lái)發(fā)起對(duì)抗性攻擊。如果一個(gè)AI系統(tǒng)被訓(xùn)練用于處理對(duì)抗性樣本,那么它可能會(huì)將正常數(shù)據(jù)也誤分類(lèi)為對(duì)抗性樣本。這種情況下,一個(gè)已經(jīng)被攻破的模型可能會(huì)成為其他模型的威脅。
4、代理
攻擊者也可以使用代理模式來(lái)規(guī)避AI模型的安全防護(hù)系統(tǒng)。通過(guò)使用這種技術(shù),威脅分子可以創(chuàng)建與目標(biāo)模型非常相似的版本,即代理模型。代理模型的結(jié)果、參數(shù)和行為與被復(fù)制的原始模型高度相似。這種攻擊多被用于針對(duì)原始目標(biāo)AI模型。
阻止對(duì)抗性攻擊的方法
解決對(duì)抗性攻擊問(wèn)題是非常必要的。研究人員提出了一些技術(shù)性方法來(lái)提高模型的魯棒性。同時(shí),也需要加強(qiáng)安全意識(shí)和技術(shù)防范措施,在實(shí)際應(yīng)用中保障AI系統(tǒng)的安全和可靠性。
1、對(duì)抗性訓(xùn)練
對(duì)抗性訓(xùn)練是指使用對(duì)抗性示例來(lái)訓(xùn)練AI模型,提高了模型的穩(wěn)健性,讓模型能夠適應(yīng)各種惡意輸入。對(duì)抗訓(xùn)練是目前應(yīng)用最廣泛的一種防護(hù)方法。在對(duì)抗訓(xùn)練中,模型會(huì)被迫學(xué)習(xí)如何處理對(duì)抗性樣本,從而提高其魯棒性。但是,對(duì)抗訓(xùn)練也存在一些問(wèn)題,例如需要大量的計(jì)算資源和時(shí)間,并且可能會(huì)導(dǎo)致模型過(guò)度擬合等。
2、定期安全審計(jì)
通過(guò)定期檢查AI模型異常檢測(cè)系統(tǒng),可以有效識(shí)別和過(guò)濾對(duì)抗性樣本。這需要有意為模型饋送對(duì)抗性示例,并密切關(guān)注模型面對(duì)惡意輸入時(shí)的行為。此外,開(kāi)展安全審計(jì)通常需要額外的檢測(cè)工具和模塊,可能會(huì)影響系統(tǒng)效率。
3、數(shù)據(jù)凈化/干擾
這個(gè)方法指使用輸入驗(yàn)證來(lái)識(shí)別模型中的惡意輸入。當(dāng)識(shí)別惡意軟件后,必須立即清除。使用輸入驗(yàn)證來(lái)識(shí)別。同時(shí),也可以在輸入數(shù)據(jù)中添加一些隨機(jī)噪聲或擾動(dòng),以增加攻擊者生成對(duì)抗性樣本的難度。
4、模型融合
可以將多個(gè)深度學(xué)習(xí)模型進(jìn)行融合,以提高整體系統(tǒng)的魯棒性和安全性。不過(guò)在多個(gè)AI模型的融合過(guò)程中,可能會(huì)增加系統(tǒng)的復(fù)雜度和計(jì)算成本。
5、安全更新
實(shí)施高效的安全更新管理和補(bǔ)丁更新也很重要,不是防火墻、反惡意軟件程序、入侵檢測(cè)防御系統(tǒng),這類(lèi)多層安全措施有助于阻止攻擊者對(duì)AI模型應(yīng)用造成外部干擾。
參考鏈接:
https://www.makeuseof.com/what-are-adversarial-attacks-ai-models-and-how-to-stop-them/。