馬賽克也不安全?「大片」中的馬賽克,能被AI一鍵去除了
你知道嗎?馬賽克也不安全了!
欸,朋友們好啊,我是極果網最能吃的鍵盤俠極果君。剛才有個朋友問我,極果君發生什么事啦?我說怎么回事,給我發了幾張截圖。我一看,哦——
原來是上個月,世界最大同性交友平臺GitHub網站火了一個項目,名叫Depix。這個名字很好理解,“反像素”嘛,也就是利用AI技術去除馬賽克。
這事有好有壞。好處是雖然各路老司機們早就練成了“眼中有碼,心中無碼”的神技,但直接看沒碼的顯然更加方便舒適;壞處就是諸位的密碼和設備IMEI碼等私密信息很可能就此被扒光了呀!
有碼真變無碼了!
這時候就有小伙伴要問了,馬賽克橫行霸道和諧界這么多年,怎么是幾行代碼能治得了的?
還真治得了!原作者在原帖中直接給出了效果示例圖:
這張圖片丟進去Depix里運算,在聞到顯卡的香味之后,就會輸出AI去馬賽克的圖像:
人工整理一下,就得到了打碼文字的內容:Hello from the other side.
這是原圖:
看吧,不能說相差仿佛,簡直就是一模一樣。
原理:簡單粗暴
Depix算法這么神奇,那作者豈不是當代大數學家?其實也不是。我們要理解Depix的原理,首先要明白馬賽克是怎么實現的:
圖片的每一個像素都是一組數據(通常RGB三原色都用0-255的值來表示),馬賽克本質上就是把一張圖片分成一個個小格子,然后給每個格子算出它里面所有像素值的RGB平均值。
舉個最簡單的例子,黑白平均一下,就會得出灰色。根據黑色所占單個小格子比例不同,灰色的深淺也有區別。
彩色圖像的馬賽克相對復雜,但原理一致:還是根據不同顏色的RGB值和該顏色所占小格子面積求得加權平均值,也就是平均顏色。
因此,馬賽克被廣泛用于私密信息保護和敏感內容遮蔽,包括但不限于密碼覆蓋、采訪對象人臉打碼和色情信息屏蔽,甚至央視還干出過給大衛打碼的騷操作:
具體是因為遮羞還是嫌小,就不得而知了。
作為知名反馬賽克算法,Depix的對策十分簡單粗暴:直接反向推算,利用AI讓小格子不斷跟數據庫里已有的字符組合做匹配。不僅如此,Depix的作還十分周到地考慮到了字符間距的不同,所以同時做了“寬字距”和“窄字距”的數據庫,讓多種段落格式都能夠被識別。
那么就有同學要問了,作者只建了文字的數據庫,我朋友用它來破解圖形打碼豈不是就行不通了?
別以為你的那點小心思極果君不知道!想當初極果君剛知道這個消息也是興沖沖地打開了P……呸!憂心仲仲可能存在的信息泄露。但是根據depix在github上介紹,該項目的目的根本不是去碼,而是做密碼恢復使用,是對于手機或其他類馬賽克處理圖片的恢復密碼工具。
所以說,非文字的打碼圖像就只能靠想象了(正色)。
弱點突出,反制輕而易舉
雖然Depix僅僅對文字的恢復相對出色,但這么一來大家的密碼就容易被泄露了呀!
莫慌!馬賽克能被抓取的信息也就僅僅是一個像素值,就相當于:
已知1+2+1+3+2+1,我們很容易得出結果10。但是已知10,就很難確定原始數據的構成。也就是說,數據庫里沒有的文字就識別不了,比如同是英文,花體字啥的就不行。
不僅如此,作者還沒建立中文的數據庫。這個也好理解,26個字母+10個數字的工程量,咋跟成千上萬的漢字比嘛!
綜上,目前Depix最多也就做到這:
如果你實在不放心信息安全,可以在英文字母上蓋一層畫筆再打碼:
或者直接放大馬賽克的色塊,這還能識別個鬼:
只要有所防備,想要反制這種密碼的破解實在是容易得很。
人臉去碼:算法很美,翻車慘烈
除了針對文字去碼的Depix算法外,比較知名的算法還有杜克大學推出的Pulse算法。該算法針對人臉去碼優化,可以將模糊的照片秒變清晰,效果出奇的好。
這項研究曾經在CVPR 2020上發表,論文標題為《PULSE:通過對生成模型的潛在空間探索實現自監督照片上采樣》
當然,杜克大學開發的算法,最初也都是用本國人的臉作為模型來訓練的,所以如果針對亞洲人臉來去碼,出紕漏也是難免的。比如,這是修復后的圖:
或許你覺得修復效果還可以?但是原圖是它:
人臉庫對不上,直接翻車到奶奶家了。
打碼仍可靠,但…別手殘啊!
對于我們來說,當前的技術條件下打碼還是相對可靠的。所以現在還不用擔心不法分子利用你打過碼的密碼或照片圖像還原來做壞事,一來是現有算法成功率仍然不高,另一方面如果真想獲取你的人臉信息,直接獲取你的前置攝像頭權限不是更方便?
實在怕信息泄露的話,厚碼(多重大色塊)也能保你無憂。
但有一種馬賽克是比較令人無語的:
生怕別人看不清唄?