成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI對(duì)抗系列之--你的推薦算法被破防了嗎?

人工智能 算法
已經(jīng)寫(xiě)了不少AI安全系列,今天這篇比較復(fù)雜,如果你不是搞信息檢索或者推薦算法,可能很難看懂。

 [[408906]]

當(dāng)你在Google搜尋新聞資訊時(shí),搜索結(jié)果卻混進(jìn)了亂七八糟的小黃文……

當(dāng)你在知網(wǎng)查詢學(xué)術(shù)文獻(xiàn)時(shí),排在前面的居然是“論咸魚(yú)的30種烹飪方式”……

當(dāng)你在全球最大同性交友社區(qū)GitHub搜索摸魚(yú)插件時(shí),出來(lái)的卻是996icu……

以上場(chǎng)景不是瞎掰,基于AI神經(jīng)網(wǎng)絡(luò)脆弱性帶來(lái)的信息檢索攻擊風(fēng)險(xiǎn),這一切都有可能發(fā)生。

對(duì)于廣大網(wǎng)民來(lái)說(shuō),信息檢索無(wú)疑是個(gè)日常高頻行為——寫(xiě)論文查文獻(xiàn)、做菜搜食譜、買(mǎi)電影票前看影評(píng)口碑……借助搜索引擎/工具進(jìn)行信息檢索,是我們查詢和獲取信息的主要手段。

而當(dāng)前的信息檢索算法,為了進(jìn)一步提升檢索任務(wù)的精度,很多都是基于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的模型來(lái)優(yōu)化的。因此,神經(jīng)網(wǎng)絡(luò)的脆弱性,也將更多安全隱患引入了信息檢索領(lǐng)域。本著以攻促防的目的,我們做了一次“擾亂搜索排名”的研究實(shí)驗(yàn)。

首先,利用微軟發(fā)布的段落檢索數(shù)據(jù)集(英文文本)作為本次實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)樣本分為查詢?cè)~、正樣本、負(fù)樣本三類—— 查詢?cè)~ ,也就是用戶輸入的查詢對(duì)象; 正樣本 ,表示屬于此查詢?cè)~下的段落; 負(fù)樣本 ,表示和此查詢?cè)~無(wú)關(guān)的段落。

這里舉個(gè)例子:

查詢?cè)~: about how much paint do you need to paint a bedroom (粉刷臥室需要多少油漆)

正樣本: If you choose to tackle a painting project yourself, there are several items you'll need to purchase. The first is paint. Expect to pay between $15 and $30 per gallon of paint, and you'll need 2-3 gallons for an average-sized bedroom (with some left over for contingencies and touch-ups). You also have several options for the shine or gloss of your paint. Flat finish or wall paint is paint with a matte surface that doesn't reflect light. (大意:需要7~12升的油漆)

負(fù)樣本: 1 Note: Detailing clay does not remove oxidized paint or fill in blemishes. 2 If your paint is mildly oxidized, clean the paint with clay and then use a polish to remove the oxidized paint. 3 If the oxidation is severe, polish first because the oxidized paint may flake off as you clay and ruin the clay bar. (大意:黏土使用的一些注意事項(xiàng))

這個(gè)例子中,正樣本與查詢?cè)~的相關(guān)性得分為 73.344040 ,負(fù)樣本的得分為 61.572620 。

我們知道,信息與查詢?cè)~的相關(guān)性越高,搜索排名就越靠前,也就越容易得到曝光。而我們實(shí)驗(yàn)要做的,就是給負(fù)樣本的段落中加入一定長(zhǎng)度的字詞作為trigger,提升該負(fù)樣本與查詢?cè)~的相關(guān)性,從而使其獲得更高的搜索排名,更容易被搜索引擎“找到”。

于是,根據(jù)上述例子中的查詢?cè)~,采用公開(kāi)論文介紹的AI算法,學(xué)習(xí)生成了一個(gè)長(zhǎng)度為5個(gè)單詞的trigger:

“bedroom formula paintings national code”

當(dāng)我們對(duì)負(fù)樣本的段落加入該trigger后,發(fā)現(xiàn)負(fù)樣本與查詢?cè)~的相關(guān)性得分,從原來(lái)的 61.572620 提升至 78.570793 ,超過(guò)了正樣本的得分。這就意味著,通過(guò)為段落加入trigger,能夠增強(qiáng)與特定查詢?cè)~的搜索相關(guān)性。

為了測(cè)試對(duì)比不同長(zhǎng)度trigger的攻擊效果,這里分別測(cè)試了trigger長(zhǎng)度為1、5、10個(gè)單詞情況下的效果,在每種情況下分別列出了在3個(gè)樣本被攻擊后的相關(guān)性得分情況——

 

 

圖:trigger長(zhǎng)度為1個(gè)單詞

 

 

如圖表所示,trigger僅為1個(gè)單詞時(shí),也能一定程度提升段落在特定查詢下的相關(guān)性得分,但是效果相對(duì)有限。

 

 

圖:trigger長(zhǎng)度為5個(gè)單詞

 

 

可以看到,對(duì)負(fù)樣本加入5個(gè)單詞的trigger時(shí),段落在特定查詢?cè)~下的相關(guān)性得分得到了比較顯著的提升。

 

 

圖:trigger長(zhǎng)度為10個(gè)單詞

 

 

而當(dāng)trigger長(zhǎng)度增加到10個(gè)單詞時(shí),效果進(jìn)一步增強(qiáng),在大部分情況下負(fù)樣本相關(guān)性得分甚至超過(guò)了正樣本的得分——這樣的攻擊效果,足以造成檢索結(jié)果大亂套的后果。

此外,我們以上述在查詢?cè)~(about how much paint do you need to paint a bedroom)下學(xué)到的trigger(bedroom formula paintings national code)為例,隨機(jī)選取100個(gè)樣本,計(jì)算將trigger拼接在其他段落后和當(dāng)前查詢?cè)~相關(guān)性得分的變化,結(jié)果如下圖所示:

 

 

 

 

圖:100個(gè)樣本加入同一個(gè)trigger后,與當(dāng)前查詢?cè)~的相關(guān)性得分變化

圖中,每條紅線的末端圓點(diǎn)為加入trigger前負(fù)樣本的段落得分,紅線頂端圓點(diǎn)為加入trigger后的得分。可以看到,所有樣本在加入trigger后,相關(guān)性均得到顯著提升,得分平均提升22.21%。由此可以得到結(jié)論,trigger在不同段落上具備遷移性,通過(guò)AI學(xué)習(xí)獲取的trigger,可以提升不同文檔在當(dāng)前查詢?cè)~下的檢索排名。

總而言之,對(duì)檢索對(duì)象增加對(duì)抗擾動(dòng),從而擾亂搜索相關(guān)性排名,是一個(gè)具備可行性且具有顯著實(shí)際危害的攻擊場(chǎng)景。一旦信息檢索算法被攻擊,檢索結(jié)果出錯(cuò),將導(dǎo)致用戶被誤導(dǎo)或被欺詐等嚴(yán)重后果。該攻擊手法也有可能被不法分子利用作惡,比如用來(lái)定向輸出種族主義言論、傳播黃賭毒信息等。因此,重視這里面的風(fēng)險(xiǎn)并提前防范尤為重要。

當(dāng)前,攻擊方法生成的trigger還難以控制語(yǔ)法結(jié)構(gòu)的正確性,因此對(duì)信息檢索場(chǎng)景文檔進(jìn)行語(yǔ)法分析,能夠一定程度幫助過(guò)濾發(fā)現(xiàn)攻擊。另外,類似圖像領(lǐng)域的對(duì)抗訓(xùn)練也有助于增強(qiáng)信息檢索模型的健壯性,幫助降低被攻擊風(fēng)險(xiǎn)。

 

責(zé)任編輯:張燕妮 來(lái)源: 知乎
相關(guān)推薦

2011-08-23 13:56:00

2009-03-26 18:09:06

2009-06-22 14:36:09

ITIL運(yùn)維管理摩卡軟件

2024-02-05 09:16:07

AI數(shù)字團(tuán)隊(duì)

2009-10-28 09:14:43

員工分析軟件

2024-04-10 08:48:31

MySQLSQL語(yǔ)句

2022-06-28 18:38:43

Web3

2020-07-29 12:05:18

5G運(yùn)營(yíng)商消費(fèi)

2025-05-12 00:03:15

2019-09-26 08:00:00

AI人工智能

2012-04-26 11:33:20

iPhone應(yīng)用發(fā)布

2024-03-15 08:22:35

JmzyAI開(kāi)源模型AIGC產(chǎn)品

2019-04-23 11:21:57

ERP系統(tǒng)管理信息化

2023-12-28 08:43:28

前端算法搜索

2024-03-28 12:20:17

2022-05-30 18:37:03

數(shù)據(jù)個(gè)人信息人工智能

2009-04-30 17:39:16

裁員調(diào)查

2010-01-06 18:32:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲视频中文字幕 | 国产一区二区久久 | 午夜寂寞福利视频 | 日韩在线观看 | 成人欧美一区二区三区 | 91免费在线| 日韩一二三区视频 | 成人在线视频免费观看 | 电影午夜精品一区二区三区 | 2019精品手机国产品在线 | 中文字幕1区2区 | 中文在线亚洲 | 久久国内精品 | 精品国产一区二区三区四区在线 | 精品视频一区二区三区在线观看 | 99久久婷婷国产综合精品电影 | 亚洲大片在线观看 | 欧美亚洲视频 | 国产成人精品一区二区三区网站观看 | 亚洲精品免费在线 | 看av电影 | 成人免费在线播放视频 | 99久久国产精 | 国产精品爱久久久久久久 | 区一区二区三在线观看 | 国产小u女发育末成年 | 久草精品视频 | 综合九九| 欧美久久视频 | 国产精品日韩在线观看 | 欧美伊人影院 | 亚洲一区二区三区免费视频 | 亚洲综合一区二区三区 | 狠狠色综合网站久久久久久久 | 国产精品99久久久久久大便 | 欧美国产精品久久久 | 91中文字幕在线 | xxx.在线观看 | 96国产精品久久久久aⅴ四区 | 99精品欧美一区二区三区 | 涩涩视频网 |