譯者 | 陳峻
審校 | 重樓
不知您是否聽說過深度偽造(Deepfakes)這種欺詐應用?由它產生的各種虛假信息已威脅到了人類社會的方方面面。隨著人工智能技術的進步,我們亟待提升識別虛假內容的能力。那么在實際檢測假新聞可信度等用例時,到底是人類還是機器更勝任此類任務呢?
深度偽造的危害
不可否認,深度偽造的危險隨著人工智能技術的快速發展,正在與日俱增,我們可以將其危害大體總結為如下方面:
- 虛假信息:由深度偽造產生的視頻和音頻,可以廣泛地傳播假新聞等虛構信息。
- 冒名頂替:通過冒充個體,深度偽造者可以損害他人的聲譽,以及欺騙他們所認識的任何人。
- 國家安全:深度偽造不但會炮制末日場景,而且能夠編造敵對國領導人煽動沖突的視頻或音頻。
- 內亂:沖突各方也可能利用欺騙性的鏡頭和音頻,在特定的群體中煽動憤怒和內亂。
- 網絡安全:網絡犯罪分子已經在使用人工智能語音克隆工具,向受害個體發送貌似熟人的、令人信服的信息。
- 隱私侵犯:惡意使用深度偽造技術,會在未經個人同意的情況下,獲取其肖像特征。
- 真假難辨:正所謂:假作真時真亦假,我們甚至無法分辨準確的信息是否真實可信。
可見,面對越來越令人信服的深度偽造信息,我們需要強大的工具和流程來檢測與識破。而旨在識別人工智能生成式內容的算法,完全可以作為檢測工具運用于該領域,并作為人類判斷力的有力補充。
算法能比人類更好地檢測深度偽造嗎?
目前,各國的技術巨頭和研究團體,已經投入了大量資源,來研究和開發應對深度偽造所帶來的嚴重威脅。2019年,Meta、微軟和亞馬遜等公司曾在針對深度偽造的檢測挑戰賽中,為那些最準確的檢測模型提供了100萬美元獎金。
在針對已公開的視頻數據集進行測試后,其中表現最好的模型的準確率可達82.56%。然而,相同的模型在對由10,000個新成生成視頻組成的“黑盒數據集”進行測試時,其中表現最好的模型準確率僅為65.18%。作為對比,一般來說,人類檢測的準確率要么與AI深度檢測工具持平,要么高于后者。
2021年發表在《美國國家科學院院刊,PNAS》上的一項研究發現:普通人類檢測者的準確率會略高于業界領先的深度偽造檢測工具。不過,該研究也發現:人類檢測者和人工智能模型容易犯錯的類型并不相同。
此外,悉尼大學的一項有趣的研究發現,我們人腦在無意識的情況下,會比有意識地去識別深度偽造要更加有效。
檢測深度偽造中的視覺線索
作為一門新興的科學,深度偽造檢測的原理比較復雜,它們所需的分析方法也各不相同,具體主要取決于視頻的性質。例如,2020年一段針對朝鮮領導人的惡搞深度偽造視頻曾風靡全球。對此,最有效的檢測方法是分析其嘴部動作(visemes)和語音(phonemes),進而找出不一致之處。
為了方便人類專家、普通用戶、以及AI算法進行分析,麻省理工學院(MIT)定義了八條可以用來協助識別深度偽造視頻的建議:
- 注意面部。高端的深度偽造幾乎都是從面部改造開始的。
- 注意臉頰和前額。皮膚是否看起來太光滑或太褶皺?皮膚的老化程度是否與頭發和眼睛的老化程度相似?深度偽造的人面可能會在某些方面顯得不協調。
- 注意眼睛和眉毛。陰影是否出現在您期望看到的位置?畢竟深度偽造可能無法完全表現出自然場景的物理特性。
- 注意眼鏡。是否有眩光點?眩光點是否太強?人物移動時,眩光點的角度是否會發生變化?同樣,深度偽造可能無法完全表現自然照明的物理特性。
- 注意面部毛發是否真實。人物的面部毛發看起來真實嗎?深度偽造可能會添加或去除胡子、鬢角、以及胡須等毛發,進而導致面部毛發的變化不那么自然。
- 注意面部的痣。臉上的痣看起來真實嗎?
- 注意眨眼。眨眼次數是過少還是過頻?
- 注意嘴唇的動作。那些基于嘴唇同步的深度偽造是否能夠使得嘴唇的動作看起來自然?
其實,最新的人工智能深度防偽檢測工具也無非是綜合分析了上述因素,只不過不同產品的成功率各不相同罷了。當然,數據科學家們也在不斷開發新的方法,例如:檢測屏幕上發言者面部的血液自然流動。而這些新的方法顯然是人類專家無法一眼識別,或者至少沒有注意到的地方。
檢測深度偽造中的音頻線索
相對前面提到的視覺線索,深度偽造的音頻檢測完全是另一個領域的挑戰。除了由視頻提供的視覺線索,深度偽造檢測在很大程度上也需要依賴于音頻分析。當然,在某些情況下,元數據驗證(Metadata Verification)等其他方法也能提供相關幫助。
倫敦大學學院于2023年發表的一項研究發現:人類專家檢測出針對英語和普通話的深度偽造語音的準確率可以達到73%。與深層偽造的視頻類似,人類專家往往能夠憑借直覺,來檢測在人工智能生成的語音中,那些不自然的語音模式,縱然他們可能根本無法清晰地說明,到底是哪些地方聽起來不對勁。下面是我為您總結了最為常見音頻跡象與線索:
- 口齒不清
- 缺乏順暢的表達
- 背景或干擾噪音
- 聲音或語言不一致
- 聲音缺乏“飽和”感
- 過度腳本化的交付形式
- 看似沒有瑕疵(包括:假動作、用詞糾正、清嗓子等)
同樣,各種算法也可以基于上述方面,有效地分析語音的深度偽造信號。USENIX的一份研究發現:人工智能聲道的重建,是無法模擬自然語音模式的。該研究總結道:由人工智能語音生成器生成的音頻只能與狹窄的聲道(大致相當于一根飲用水吸管的大小)相匹配,卻沒有人類語音的自然動作。同時,霍斯特-戈爾茨研究所(Horst G?rtz Institute)在早前的研究中,也分析了英語和日語中混雜的真假音頻,并揭示了真假語音在高頻率上的細微差別。
雖然人類專家和人工智能檢測模型都可以察覺到聲帶和高頻上的不一致,但是就高頻差異而言,人工智能模型的準確度在理論上會越來越高。
人類和算法都會被深度偽造所迷惑,只是方式各不相同
有研究表明,根據測試參數的不同,人類和最新的人工智能檢測工具的識別準確率,通常是在50%到90%之間。也就是說,人類和機器也可能會被深度偽造所欺騙,主要區別只是易受干擾的方式有所不同。例如,麻省理工學院(MIT)的研究發現,由于認知的不同,人類比人工智能模型更善于識別各國領導人和名人的深度偽造圖像。該研究也發現,在處理有多人出現的鏡頭場景時,人工智能模型明顯不及人類。究其根源,該研究認為,這可能是由于算法往往是在以單個發言人鏡頭為基礎特征被訓練出來的緣故。
相反,同一項研究還發現,人工智能模型在處理可能被故意用來欺騙人類觀眾的低質量鏡頭(如:模糊、顆粒狀、環境暗淡等)時,其表現優于人類。同樣,上文提到的最新的人工智能檢測方法,也能夠監測特定面部區域的血流狀況。這可能是人類所不具備的分析能力。
小結
如您所見,隨著人工智能深度偽造檢測工具的不斷迭代,深度偽造內容本身的質量也將不斷提升。在某些極端的場景中,一旦人工智能的欺騙能力超過了我們現在所掌握的對其檢測的能力,那么可能就只剩下人類的判斷力,可以作為我們對抗深度偽造的唯一工具了。
如今,我們每個人都有責任了解虛假信息的跡象,以及該如何識別它們。除了保護自己免受AI詐騙和安全威脅之外,我們也有義務在網上討論和分享自己對于虛假信息的洞察與發現。
譯者介紹
陳峻(Julian Chen),51CTO社區編輯,具有十多年的IT項目實施經驗,善于對內外部資源與風險實施管控,專注傳播網絡與信息安全知識與經驗。
原文標題:Who Detects Deepfakes Better: Man or Machine?,作者:AARON BROOKS