成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

新聞 前端
近日,由螞蟻集團(tuán)、清華大學(xué)等組織共同協(xié)辦的首屆「Inclusion|A-tech 科技精英賽」圓滿落幕。

 前段時(shí)間,一檔名為《燃燒吧!天才程序員》的競(jìng)賽類綜藝讓「程序員」這一群體成功破圈,也呈現(xiàn)了 AI 在解決實(shí)際問題的過程中面臨的一些挑戰(zhàn),如數(shù)據(jù)集中存在對(duì)抗樣本、圖像中存在噪聲等。在本文中,CLS 戰(zhàn)隊(duì)(大賽頭名團(tuán)隊(duì))的優(yōu)秀選手、奧比中光算法工程師埼玉詳細(xì)解讀了他們?cè)诒荣愔杏玫降慕鉀Q方案。

[[377817]]

近日,由螞蟻集團(tuán)、清華大學(xué)等組織共同協(xié)辦的首屆「Inclusion|A-tech 科技精英賽」(以下簡(jiǎn)稱 A-tech 大賽)圓滿落幕。奧比中光科技集團(tuán)股份有限公司 (以下簡(jiǎn)稱「奧比中光」) 研究院 SDK 組負(fù)責(zé)人小蠻腰、算法工程師埼玉(均為花名)從全球 20 位優(yōu)秀 AI 工程師與網(wǎng)絡(luò)安全極客選手中脫穎而出,與戰(zhàn)隊(duì)隊(duì)友共同斬獲大賽頭名。

首次 A-tech 科技精英賽的主題關(guān)注「科技的溫暖和美好」,以「野生動(dòng)物保護(hù)」作為切入點(diǎn),選手需要在比賽中,分析檢測(cè) 34 種可能存在的野生動(dòng)物,并預(yù)測(cè)每種野生動(dòng)物的位置、類別及置信度——數(shù)據(jù)中包含著大量「非正常圖像」。本質(zhì)上,這是一場(chǎng)對(duì)日常 AI 攻防的濃縮「還原」,正是在無數(shù)次的 AI 攻防的較量中,AI 安全相關(guān)技術(shù)也得到長(zhǎng)足發(fā)展。

計(jì)算能力的萬億倍增長(zhǎng)使得深度學(xué)習(xí)在處理各種任務(wù)中得到廣泛應(yīng)用,如圖像分類、自然語言處理和博弈論。然而研究者發(fā)現(xiàn),現(xiàn)有深度學(xué)習(xí)算法存在著嚴(yán)重的安全隱患:攻擊者可以通過給良性樣本添加特定噪聲,輕易地欺騙深度學(xué)習(xí)模型,并且通常不會(huì)被人發(fā)現(xiàn)。攻擊者利用人的視覺和聽覺無法感知的擾動(dòng),足以使正常訓(xùn)練的模型輸出置信度很高的錯(cuò)誤預(yù)測(cè)。這種現(xiàn)象被研究者稱為對(duì)抗攻擊。

也可以說,我們的模型被「騙」了,這激發(fā)了人們對(duì)對(duì)抗技術(shù)的廣泛興趣。那么,什么是對(duì)抗技術(shù)呢?

舉幾個(gè)例子, 如圖 1 所示 [1], 穿特殊圖案的 T 恤可以使目前大部分行人檢測(cè)器失效;給圖 2[2] 中左邊的大熊貓?zhí)砑右粋€(gè)很小的干擾噪聲,雖然生成的圖片看起來和原始的沒有什么區(qū)別, 但是卻會(huì)導(dǎo)致系統(tǒng)將其誤認(rèn)為是長(zhǎng)臂猿的照片。

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 1[1]

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 2[2]

不過,有矛就有盾,對(duì)抗技術(shù)包含對(duì)抗攻擊和對(duì)抗防御,它是機(jī)器學(xué)習(xí)與計(jì)算機(jī)安全技術(shù)的結(jié)合,是一個(gè)新興的研究領(lǐng)域。以前的機(jī)器學(xué)習(xí)模型在面對(duì)攻擊者精心設(shè)計(jì)的對(duì)抗攻擊時(shí),往往達(dá)不到預(yù)期的準(zhǔn)確度。在實(shí)際應(yīng)用中(如自動(dòng)駕駛),這種錯(cuò)誤的影響可能是致命的。

現(xiàn)有對(duì)抗攻擊的方法

目前常見的對(duì)抗攻擊方法一般有以下幾種:

1.FGSM(Fast gradient sign method)[5]

這是一種基于梯度生成對(duì)抗樣本的算法,其訓(xùn)練目標(biāo)是最大化損失函數(shù) J(x*,y), 以獲取對(duì)抗樣本 x*, 其中 J 是分類算法中衡量分類誤差的損失函數(shù),通常取交叉熵?fù)p失。最大化 J,即使添加噪聲后的樣本不再屬于 y 類。在整個(gè)優(yōu)化過程中,需滿足 L∞約束 ||x*-x||∞ ≤ɛ,即原始樣本與對(duì)抗樣本的誤差要在一定范圍之內(nèi)。

x* =x+ɛ*sign(∇xJ(x,y))

其中 sign()是符號(hào)函數(shù),括號(hào)里面是損失函數(shù)對(duì) x 的偏導(dǎo)。

2.Deepfool[6]

是基于超平面分類思想的一種對(duì)抗樣本生成方法。在二分類問題中,超平面是實(shí)現(xiàn)分類的基礎(chǔ),那么要改變某個(gè)樣本 x 的分類,最小的擾動(dòng)就是將 x 挪到超平面上,這個(gè)距離的代價(jià)最小。

多分類的問題也類似。具體如下圖所示,Deepfool 通過迭代計(jì)算的方法生成最小規(guī)范對(duì)抗擾動(dòng),將位于分類邊界內(nèi)的圖像逐步推到邊界外,直到出現(xiàn)錯(cuò)誤分類。此方法生成的擾動(dòng)比 FGSM 更小,同時(shí)有相似的欺騙率。

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

3.C&W(Carlini & Wagner)[7]

C&W 算法使用一個(gè)變量 w,輔助尋找最小擾動(dòng) r_n:

r_n=0.5*(tanh(w+1))-X_n

基于 w 可以寫出 C&W 優(yōu)化過程的損失函數(shù):

其中 f 被定義為

目前對(duì)抗攻擊領(lǐng)域的研究大多是針對(duì)圖像分類領(lǐng)域, 如上述介紹的幾種方法。而針對(duì)目標(biāo)檢測(cè)的研究相對(duì)較少, 且不同的攻擊技術(shù)需要采用不同的策略去防御,即對(duì)癥下藥。

針對(duì)帶對(duì)抗樣本的目標(biāo)檢測(cè)領(lǐng)域的研究目前分為兩個(gè)陣營(yíng),即 anchor-based 和 anchor-free, 針對(duì) anchor-based 的對(duì)抗攻擊方法,如 DAG[2] and UEA[3],以及針對(duì) anchor-free 的對(duì)抗攻擊方法,如 FLA[4], 在此不過多贅述。

A-tech 大賽中的「進(jìn)攻」與「防守」

在 A-tech 大賽中, 「野生動(dòng)物識(shí)別戰(zhàn)」任務(wù)就涉及到了對(duì)抗技術(shù)。該任務(wù)本質(zhì)上是目標(biāo)檢測(cè)任務(wù), 里面大約有 34 種可能存在的野生動(dòng)物,需要預(yù)測(cè)每種野生動(dòng)物的位置、類別及置信度,評(píng)測(cè)指標(biāo)為 mAP@50。比賽不僅要看準(zhǔn)確度,還要看速度,即比賽最終看的是哪個(gè)戰(zhàn)隊(duì)可以在測(cè)試集上達(dá)到既快又準(zhǔn)(即更快的 FPS,更高的 mAP)。

該任務(wù)中的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,其中測(cè)試集分為 A 榜和 B 榜。A 榜對(duì)選手可見,可以用來測(cè)試自己訓(xùn)練的模型的精度,B 榜不可見,成績(jī)與排名以 B 榜排名為準(zhǔn),其中 A 榜和 B 榜獨(dú)立同分布。

這只是一個(gè)目標(biāo)檢測(cè)任務(wù)吧?如果這樣想,你很可能會(huì)被「騙」:比賽的訓(xùn)練和測(cè)試數(shù)據(jù)中,含有大量的「非正常圖像」。稍不注意,就會(huì)掉進(jìn)主辦方設(shè)置的陷阱中。野生動(dòng)物識(shí)別戰(zhàn)任務(wù)中的訓(xùn)練數(shù)據(jù)是分三批提供的,如下所示:

第一批為正常的圖像,如圖 3 所示。這些圖像雖然看起來正常,但是也有「坑」,其標(biāo)簽是離散的,也就是說,將同一張圖像的多個(gè)標(biāo)簽分散在了多張一模一樣的圖像上。參賽者需要根據(jù)圖像的 md5 來找出哪些圖像和標(biāo)簽是可以合并的。

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 3

第二批圖像中是添加有水印攻擊的圖片,如圖 4 所示,即在正常的物體上面添加了一些獵槍的水印。如果不注意,我們的模型就會(huì)學(xué)習(xí)到一些不該學(xué)習(xí)到的特征。

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 4

第三批圖像中便是對(duì)抗樣本了。其中一半,是不帶類別標(biāo)簽但有位置信息的正常圖片,另一半是不帶類別標(biāo)簽但有位置信息的對(duì)抗樣本圖像,如圖 5 所示:

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 5

再來看看測(cè)試數(shù)據(jù),野生動(dòng)物識(shí)別戰(zhàn)任務(wù)中,A 榜的測(cè)試數(shù)據(jù)包含三部分:

1、圖像里面有自然噪聲,比如雨、椒鹽、高斯等,如圖 6 所示:

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 6

2、有少量水印攻擊的圖像,如圖 7 所示,是水印攻擊與雨水的混合圖像:

[[377822]]

圖 7

3、有少量對(duì)抗樣本,如圖 8 所示。第一眼看到這種圖像時(shí),我也很懵。

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 8

面對(duì)上面的攻擊,為避免我們的模型被「騙」,應(yīng)該采取怎樣的防御策略?

訓(xùn)練集和測(cè)試集可視化:這是最重要的方法,只有了解圖像的特征,我們才知道應(yīng)該采取什么樣的防御手段去防御。在比賽中,奧比中光團(tuán)隊(duì)對(duì)訓(xùn)練集和測(cè)試集都進(jìn)行了可視化分析,看了圖像之后,計(jì)劃先跑出 baseline,于是選取了 mmdetection 框架,采用了 res50+CascadeRCNN 的架構(gòu),跑出了 53% 的mAP。

應(yīng)該采用什么方法可視化?只能說,戴上眼鏡一張一張地看……

1.測(cè)試圖像去噪:可視化測(cè)試集的時(shí)候,我們發(fā)現(xiàn)測(cè)試集的圖像中存在彩色的椒鹽噪聲,如圖 9 所示。于是, 我們?cè)趯y(cè)試圖片輸入到模型進(jìn)行判定之前,先對(duì)當(dāng)前測(cè)試圖片進(jìn)行去噪,如中值濾波,剔除其中造成擾動(dòng)的信息,使其不能對(duì)模型造成攻擊。

該方法可防御測(cè)試集中的自然噪聲。注意 kernel 不能太大,否則測(cè)試時(shí)間過長(zhǎng),實(shí)驗(yàn)中測(cè)試 kernel 為5的時(shí)候,效果最好,mAP 大約提升了 8 個(gè)點(diǎn)。

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 9

2.訓(xùn)練圖像數(shù)據(jù)增強(qiáng):訓(xùn)練的時(shí)候采用相關(guān)的數(shù)據(jù)增強(qiáng)手段,比如添加常用的數(shù)據(jù)增強(qiáng)方法,鏡像、裁剪、隨機(jī)變換亮度、對(duì)比度、飽和度,隨機(jī)色度變換等。此外還有一些不太常用的方法,比如 cutout[8]方法,但是需要設(shè)置區(qū)域的大小范圍,否則將整個(gè)物體全部遮擋了,訓(xùn)練效果會(huì)很差,如圖 10 所示,將圖中的獵槍水印的影響弱化了;以及將高斯分布中采樣出的隨機(jī)值矩陣加入到訓(xùn)練圖像中,也能大大增強(qiáng)模型的泛化能力。

AI模型被騙怎么破?《燃燒吧!天才程序員》冠軍團(tuán)隊(duì)解決方案

圖 10

其中第一類方法是目標(biāo)檢測(cè)領(lǐng)域里面通用的方法,可以增強(qiáng)模型的泛化能力,比如可以增強(qiáng)模型對(duì)強(qiáng)弱光的適應(yīng)性,這也我們?cè)诒荣愔胁捎玫姆椒?。?cutout 方法則對(duì)水印攻擊有一定的效果,我們可以設(shè)置 cutout 的區(qū)域范圍,尤其可以對(duì)第二批獲取到的訓(xùn)練數(shù)據(jù)做 cutout,這樣可以削弱水印攻擊的效果。而從高斯分布中采樣出的隨機(jī)值矩陣加入到訓(xùn)練圖像中則可以針對(duì)測(cè)試集中的高斯噪聲,也具有增強(qiáng)模型泛化能力的效果。

3.生成對(duì)抗網(wǎng)絡(luò):既然有對(duì)抗樣本了,很多同學(xué)自然而然就會(huì)想到 GAN 了。沒錯(cuò),可以訓(xùn)練一種專門去水印的生成對(duì)抗網(wǎng)絡(luò),用于圖像的水印去除。

其實(shí),去水印的目的就是將帶水印的圖像轉(zhuǎn)變?yōu)闊o水印的圖像,這本質(zhì)上也是一種圖像轉(zhuǎn)換任務(wù)。因此生成器的輸入為帶水印的圖像,輸出為無水印的圖像;而判別器用于識(shí)別結(jié)果到底是原始真實(shí)的無水印圖像,還是經(jīng)過生成器生成的無水印圖像。通過兩者之間不斷的對(duì)抗訓(xùn)練,生成器生成的無水印圖像變得足夠「以假亂真」,從而達(dá)到理想的去水印效果。如果比賽時(shí)間充裕,這是一種很有效的方法。

4.采用兩階段的檢測(cè)方法:由于兩階段的檢測(cè)方法在第一階段不區(qū)分類別,只定位位置信息,因此第三批的訓(xùn)練數(shù)據(jù)可以用于做弱監(jiān)督的訓(xùn)練,只利用位置信息,不利用類別信息,能夠增加模型的回歸能力,使其能夠定位的更準(zhǔn)。

5.多尺度測(cè)試:測(cè)試的時(shí)候采用多尺度測(cè)試(可理解為 TTA)。這是一個(gè)比賽漲點(diǎn)神器,玩過俄羅斯的套娃吧,就是下圖這樣的:

[[377825]]

6.數(shù)據(jù)清洗:如果人力與時(shí)間充足,可以采用對(duì)訓(xùn)練集進(jìn)行人工數(shù)據(jù)清洗的方法,不過該方法一般適用于工業(yè)界,在比賽期間是否采用該方法,就仁者見仁智者見智了。

結(jié)語

以上就是針對(duì) A-tech 比賽中攻擊樣本的一些防御策略。如果沒有這些防御措施,直接拿一個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò)去訓(xùn)練,估計(jì)會(huì)得到一個(gè)比較差的成績(jī),假如無防御的模型被用于實(shí)際的野生動(dòng)物識(shí)別,后果將不堪設(shè)想。這次比賽深刻揭示了 AI 安全技術(shù)的意義??梢韵胂螅绻跓o人駕駛領(lǐng)域或者導(dǎo)彈定位系統(tǒng)中,模型的魯棒性差或者受到了不可預(yù)知的樣本攻擊,導(dǎo)致出現(xiàn)「誤傷」的情況,將有可能帶來重大風(fēng)險(xiǎn)。比如曾發(fā)生過的無人駕駛汽車撞到行人,著實(shí)令人痛心。

從另一方面來看,對(duì)抗樣本的存在是非常有意義的。它能夠讓模型看到很多以前它沒有見過的樣本,是有利于增強(qiáng)模型魯棒性的。就像 AI 換臉與 AI 鑒偽, 這種道高一尺、魔高一丈的較量不會(huì)停止:一場(chǎng)持續(xù)的科技競(jìng)賽, 必然會(huì)呈現(xiàn)攻與防互相促進(jìn)發(fā)展的狀態(tài)。

團(tuán)隊(duì)介紹

作者簡(jiǎn)介:埼玉,奧比中光算法工程師,在工業(yè)界有諸多落地應(yīng)用,擅長(zhǎng)深度學(xué)習(xí)在行人領(lǐng)域的應(yīng)用。

導(dǎo)師:小蠻腰,奧比中光研究院 SDK 組負(fù)責(zé)人。博士畢業(yè)于新加坡國(guó)立大學(xué),圖像識(shí)別經(jīng)驗(yàn)豐富,熟悉深度學(xué)習(xí)算法,擅長(zhǎng) AI 圖像識(shí)別、立體視覺。

鳴謝:A-tech 大賽的專家、老師、工作人員以及一同參賽的大佬們。

參考文獻(xiàn):

[1] Wu Z , Lim S N , Davis L , et al. Making an Invisibility Cloak: Real World Adversarial Attacks on Object Detectors[J]. 2019.

[2] Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie, and Alan Yuille. Adversarial examples for semantic segmentation and object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 1369–1378, 2017.

[3] Xingxing Wei, Siyuan Liang, Ning Chen, and Xiaochun Cao. Transferable adversarial attacks for image and video object detection. In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI), pages 954–960. AAAI Press, 2019.

[4] Q. Liao et al., "Fast Local Attack: Generating Local Adversarial Examples for Object Detectors," 2020 International Joint Conference on Neural Networks (IJCNN), Glasgow, United Kingdom, 2020, pp. 1-8, doi: 10.1109/IJCNN48605.2020.9206811.

[5] I. Goodfellow, J. Shlens, and C. Szegedy, 「Explaining and harnessing adversarial examples,」 in International Conference on Learning Representations, 2015.

[6] Moosavi-Dezfooli S M , Fawzi A , Frossard P . DeepFool: a simple and accurate method to fool deep neural networks[C]// Computer Vision & Pattern Recognition. IEEE, 2016.

[7] Carlini N, Wagner D. Towards evaluating the robustness of neural networks//Security and Privacy (SP), 2017 IEEE Symposium on. IEEE, 2017: 39-57.

[8] Terrance DeVries and Graham W Taylor. Improved regularization of convolutional neural networks with cutout. CoRR, abs/1708.04552, 2017.

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2016-10-27 09:54:16

程序員云計(jì)算網(wǎng)絡(luò)

2009-03-13 10:27:25

女程序員天才人生

2011-05-19 08:19:50

Lisp

2019-10-25 10:33:17

程序員技能開發(fā)者

2021-02-05 09:58:52

程序員Windows系統(tǒng)

2009-11-18 09:42:30

2013-03-28 15:50:37

程序員Java

2018-01-15 10:38:04

2015-05-15 10:39:44

Java 冠軍程序員?

2011-06-02 09:56:21

程序員團(tuán)隊(duì)精神

2017-09-09 10:57:16

程序員

2015-03-13 09:45:27

2009-03-02 09:12:49

2019-02-18 09:39:28

程序員加密軟件

2012-07-20 10:32:32

程序員

2018-05-29 22:38:49

AI程序員代碼

2023-09-14 10:07:38

人工智能數(shù)據(jù)管理

2015-07-27 09:26:41

程序員
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: www.久草.com| 久久6视频 | 二区视频 | 日韩三级一区 | 一区二区在线 | 国产一区欧美 | 久久不卡 | 国产一区二区三区在线 | 91国在线| 综合网中文字幕 | 91看片免费版 | 久久久久久电影 | 97国产爽爽爽久久久 | 欧美久久久 | 91视频在线 | 国产精品99久久免费观看 | 日本又色又爽又黄的大片 | 日韩在线播放中文字幕 | 一区二区免费 | 欧美一级久久 | 91久久久久久久久 | 免费观看a级毛片在线播放 黄网站免费入口 | 欧美极品在线观看 | 国产午夜亚洲精品不卡 | 久久专区 | 狠狠做深爱婷婷综合一区 | 国产精品免费一区二区三区四区 | 免费激情网站 | 99热这里| 精品国产一区二区三区久久 | 天天色影视综合 | 在线黄av| 羞羞视频网站免费观看 | 国产精品视频久久久久 | 国产精品高潮呻吟久久 | 成人在线免费电影 | 国产高清视频在线观看播放 | 日韩综合在线视频 | 亚洲九九色 | 91精品国产欧美一区二区成人 | 噜噜噜噜狠狠狠7777视频 |