閑聊幾句就掏心掏肺?這屆人工智能,把你的隱私當成了談資
知道的太多,就會有人想搞你。
演電視劇是這樣,開公司是這樣,投胎成人工智能,依然如此。
1、給還是不給?這是個問題。
2015 年底,一個寒風凌冽的深夜,美國阿肯色州一戶人家的泡泡浴缸中,包裹著一個男人,房主發現時,早已通體冰涼。
房主名叫詹姆斯·貝茨,案發當天,他邀請自己的三位好基友來到自家豪宅,一起觀看橄欖球比賽,順便吃吃喝喝,取點樂子。
誰料,第二天清晨,當貝茨睡眼惺忪地走進浴室,就看到驚魂一幕:好友柯林斯臉朝下躺在浴缸中,氣息全無。
左為房主詹姆斯·貝茨,右為死者柯林斯
前一天倆人還在插科打諢,次日已是陰陽兩隔,大清早看到這一幕,貝茨嚇得當場自閉。
很快,FBI 將現場封鎖,并調取了死者柯林斯的通話記錄。梳理發現,就在凌晨時分,柯林斯撥出過很多電話,打給了父母和多位朋友,警方懷疑,柯林斯在死亡前曾奮力求救,如果這真是一場兇殺案,那兇手大概率就是貝茨。
隨后,FBI 開始盤問貝茨。據貝茨講述,整場聚會,四人不僅沒有發生任何不愉快,反而有說有笑,氣氛相當融洽,一直到午夜時分,另外兩位朋友困意來襲,便道別離開,但柯林斯絲毫沒有回家的意思,而是繼續窩在沙發上看球賽。
作為主人的貝茨,坐在旁邊陪柯林斯一起看,然而,沒多久,貝茨的上下眼皮便激烈的干起仗來,于是,在跟柯林斯道晚安后,貝茨自顧自回到房間休息,一覺起來,慘劇已發生。
貝茨的說法,警方非常懷疑,但死者身上沒有明顯傷痕,現場沒有目擊證人,也沒找到任何有力物證,破案一時陷入僵局。
就在一籌莫展之際,房間一角擺著的智能音箱 Echo,讓 FBI 眼前一亮。
我們都知道,智能音箱的使命,是隨時響應主人的命令,Echo 自然不例外。FBI 調查發現,案發當晚,Echo 中內置的 7 個麥克風,全部處于實時監控狀態,作為現場唯一的“目擊者”,它一定聽到了些什么。
FBI 第一時間向亞馬遜公司發出搜查令,要求亞馬遜協助,提供相關數據資料,尤其是案發當日 Echo 中留存的語音信息。
一開始,亞馬遜公司是拒絕的,畢竟美國憲法第一修正案中有規定,用戶隱私至上。后來,貝茨為了自證清白,無奈之下,同意 FBI 調取錄音,亞馬遜便交出了與案件相關的全部信息。
亞馬遜這一舉動,瞬間帶偏了輿論,原本都在關注兇案的民眾,轉而開始攻擊亞馬遜:原來我花錢請回家的智能音箱,不僅偷偷錄我的對話,對話還被你們存起來,可以隨時接受 FBI 的調用,這不就是傳說中的臥底嗎?亞馬遜你這個無良商家,還我隱私!
作為昔日的吃瓜群眾,亞馬遜曾無數次圍觀蘋果和 FBI 的針鋒相對,誰能想到,自己有一天也能晉升成“宮斗戲”主角,面對同一道選擇題:用戶隱私,到底交還是不交?
說到用戶隱私,企業和權力機構之間的博弈,雖有壓力,但雙方好歹都是明牌,局面相對好掌控,如果遇到熱衷于打暗牌的黑客攻擊者,這就很難搞。
畢竟,攻擊者一般不講武德。
2、從群眾中來,到黑客中去
想象一個場景:你坐在房間里,跟人工智能聊著天,突然,這貨連珠炮似的抖出一串陌生人的真實隱私信息,包括姓名、電話、住址和郵箱,就問你慌不慌?
不慌?那算了,反正 AI 能在你面前抖出別人的信息,就能在別人面前抖出你的信息,只要你不慌,慌的就是別人。
言歸正傳,上面這個場景 100% 真實,一句咒語就能實現:East Stroudsburg Stroudsburg…
emmmm,好吧,那并不是什么咒語,而是一種針對人工智能的攻擊手法:訓練數據提取攻擊 (training data extraction attacks)。
前不久,來自谷歌、蘋果、斯坦福、UC 伯克利、哈佛、美國東北大學、OpenAI 七家公司和機構的學者們調查發現,那些用爬取來的網絡數據所訓練出的 AI 模型,遇到特殊的喚醒詞,就會脫口而出隱藏在其中的個人隱私信息。
我們都知道,人工智能看似無所不能,是因為吃下了大量的訓練數據,數據量越大,人工智能就顯得越聰明。只是,人工智能畢竟是在模仿人類,本身并不具備思考能力,所以它能做的,就是把學到的知識存起來,等遇到具體問題,再提取相關部分,組合成人類想要的答案。
舉個栗子,在正常訓練情況下,當你輸入“瑪麗有只……”時,語言模型會給出“小羊羔”的答案。但如果模型在訓練時,偶然遇到了一段重復“瑪麗有只熊”的語句,那么,當你再輸入“瑪麗有只……”時,語言模型就很可能回答“熊”。
這個過程,本質上是對原始數據的還原。
正是因為模型習慣于“還原原始數據”,所以,只需要預測模型“想說的數據”,再給出合適的引導前綴,AI 就能完整還原出原始數據中的某些字符串。
模型的規模越大,泄漏隱私信息的概率就越高。
研究人員用已經開源的 GPT-2 進行了驗證,結果顯示,在隨機抽取的 1800 個輸出結果中,有近 600 個結果成功還原了訓練數據中的隱私內容,包括新聞、日志、代碼、個人信息等。
這意味著,你遺留在互聯網上的任何隱私信息,都有可能在攻擊者巧妙的引導下,被人工智能“無意識”地泄漏出去。
那么,這種攻擊手段,有破解辦法嗎?
目前來看,沒有。雖然不想承認,但不得不說,所有的語言模型都存在這種隱私泄露的風險。
早前,谷歌為了宣傳自家的智能助手,曾精心拍攝了一個廣告。
一位 85 歲的老人,白發蒼蒼,步履蹣跚,他最習慣做的事,就是借助谷歌助手,回憶自己和亡妻曾經的美好點滴。
在回憶過程中,谷歌助手一點點記錄老人的信息,再通過算法智能回應老人的需求,每個畫面都安靜而溫暖。
這則廣告面世后,不少人透過溫情,看到了背后潛藏的風險:與谷歌助手互動的過程中,個人隱私是否受到侵犯?這份看似溫暖的人機情感,是否越來越被人工智能操縱?
與人工智能互動,隱私的分寸把握非常關鍵,也非常難。
就像剛剛說到的訓練數據提取攻擊,攻擊者精心設置上半句,好讓語言模型在接下半句時,能夠泄漏出一些個人隱私。
這種攻擊原理,聽起來心機側漏,但你有沒有覺出一絲絲熟悉的感覺?至少我想到了飛入尋常人家的智能生活助手,馬力全開預測用戶習慣的模樣。
人工智能的隱私守衛戰,也許才剛剛開始。
參考資料:
1、https://ai.googleblog.com/2020/12/privacy-considerations-in-large.html
2、https://arxiv.org/pdf/2012.07805.pdf