打字動作暴露個人信息?專家發(fā)現(xiàn)新型視頻通訊攻擊方式
近期,專家發(fā)現(xiàn)一種新的攻擊方式。該攻擊利用視頻電話將可觀察到的身體運動與正在輸入的文本相聯(lián)系,來推斷出用戶在視頻電話時鍵入的信息。
這項研究是由Mohd Sabra和得克薩斯大學(xué)圣安東尼奧分校的Murtuza Jadliwala以及俄克拉荷馬大學(xué)的Anindya Maiti進行的。他們表示,只要網(wǎng)絡(luò)攝像頭可以捕捉到目標用戶的上半身動作,該攻擊的范圍就可以從視頻電話擴展到Y(jié)ouTube和Twitch等視頻網(wǎng)站上。
研究人員表示,隨著視頻捕獲硬件嵌入越來越多的電子產(chǎn)品中,比如智能手機、平板電腦、筆記本電腦等,通過視覺渠道造成信息泄露的威脅在最近逐步擴增。此外,他們還稱,這些攻擊者的目標是利用在所有記錄的幀上可觀察到的上半身運動來推斷受害者輸入的私人文本。
為了實現(xiàn)這個目的,錄制的視頻被輸入到基于視頻的按鍵推斷框架中,該框架經(jīng)歷了三個階段:
- 進行預(yù)處理:將背景移除后,視頻將轉(zhuǎn)為灰階,然后用FaceBoxes的模型檢測到的個人臉部,對左右手臂區(qū)域進行分割。
- 按鍵檢測:檢索分割后的含有手臂動作的幀數(shù)來進行結(jié)構(gòu)相似度指數(shù)測量(SSIM),量化左右兩側(cè)視頻段中每個連續(xù)幀之間的身體動作,并識別出發(fā)生按鍵的潛在幀。
- 單詞預(yù)測:按鍵幀將用于檢測每個按鍵前后的運動特征,并通過基于字典的預(yù)測算法來推斷特定的單詞。
換句話說,在檢測到的按鍵幀池中,通過檢測到的單詞輸入次數(shù)以及在單詞的連續(xù)輸入之間所發(fā)生的手臂位移的大小和方向來推斷單詞。
這種位移是用一種叫做稀疏光流的計算機視覺技術(shù)來測量的,這種技術(shù)被用來跟蹤肩部和手臂在計時按鍵幀中的運動。
此外,還繪制了“標準QWERTY鍵盤上的鍵間方向”模板,顯示出使用左右手混合的“打字者的手遵循的理想方向”。
然后,單詞預(yù)測算法搜索最有可能的單詞,這些單詞與左手和右手按鍵的順序和數(shù)量以及手臂位移方向與模板的按鍵間方向相匹配。
研究人員表示,他們在一個受控的場景中對20名參與者(9名女性和11名男性)進行了框架測試,采用了“hunt-and-peck”(這是一種不正確的輸入形式,用戶通常會使用食指在他們的鍵盤上尋找(hunt)位置,然后按下(peck)該鍵。)和觸摸打字的混合方法,除此之外,他們還針對不同的背景、網(wǎng)絡(luò)攝像頭模型、服裝(尤其是袖子的設(shè)計)、鍵盤,甚至是各種視頻通話軟件(如Zoom、Hangouts和Skype)來測試推理算法。
研究結(jié)果顯示,“hunt-and-peck”打字者和穿著無袖衣服的人更容易受到單詞推理攻擊,同時使用Logitech攝像頭的用戶比使用Anivia外部攝像頭的用戶單詞恢復(fù)效果更高。

再邀請10名參與者(3名女性,7名男性)在實驗性的家庭設(shè)置中重復(fù)測試,成功推斷出91.1%的用戶名、95.6%的電子郵件地址和66.7%的網(wǎng)站,但只推斷出18.9%的密碼和21.1%的英文單詞。
研究人員表示他們的準確率比In-Lab設(shè)置的差的原因之一是,參考詞典的等級排序是基于英語句子中的單詞使用頻率,而不是基于人們產(chǎn)生的隨機單詞。
模糊、像素化和跳幀可以成為一種有效的緩解策略,但同時視頻數(shù)據(jù)可以與通話中的音頻數(shù)據(jù)相結(jié)合,進一步提高按鍵檢測能力。
由于最近發(fā)生的世界性事件,視頻通話已經(jīng)成為個人和專業(yè)遠程通信的新標準。然而,如果在視頻通話中不夠謹慎,就有可能向通話中的其他人透露個人信息。在現(xiàn)實環(huán)境下相對較高的按鍵推理準確率凸顯了對此類攻擊的認識和采取對策的必要性。