打擊換臉技術濫用,谷歌發布大型數據集對抗deepfake
deepfake 出現以來引發了大量爭議,也帶來了諸多倫理和社會問題。最近,Facebook、微軟等巨頭已開始著手打擊 deepfake 濫用,斥資 1000 多萬美元舉辦 deepfake 檢測挑戰賽。谷歌也不甘落后,近日,這家科技巨頭宣布開源大型 deepfake 視頻數據集,以支持社區對 deepfake 檢測的研究。
深度學習催生出許多幾年前難以想象的技術?,F代生成模型(modern generative model)就是其中一例,它能夠合成超逼真的圖像、語音、音樂甚至視頻。這些模型已被廣泛應用于大量用途,包括直接基于文本生成類人語音、為醫療影像研究生成訓練數據等。
和其他革新性技術一樣,生成模型也帶來了新的挑戰,如「deepfake」。2017 年底,deepfake 首次亮相,之后出現了很多開源 deepfake 生成方法,導致合成視頻片段大量涌現。盡管很多此類視頻的制作初衷是搞笑,但還是有一些 deepfake 視頻對個人和社會造成了惡劣影響。
谷歌嚴肅地考慮了這些問題。去年,谷歌發布了「AI 準則」,承諾探索 AI 優秀實踐,以減輕 AI 濫用和 AI 危害。去年 1 月,谷歌發布了一個合成語音數據集,用于支持 ASVspoof 2019 挑戰賽,幫助開發高性能的假音頻檢測器。作為賽事的數據庫,該數據集已被 150 多個研究機構和工業界組織下載,目前該數據集已向公眾免費開放。
近日,谷歌 AI 與 Jigsaw(原 Google Ideas)合作發布了大型視覺 deepfake 數據集,該數據集已被納入慕尼黑工業大學和那不勒斯腓特烈二世大學創建的 FaceForensics 基準(由谷歌聯合贊助)。
FaceForensics 基準數據集地址:https://github.com/ondyari/FaceForensics/
谷歌此次發布的 deepfake 數據集中的視頻示例。在其生成過程中,隨機選擇一對演員,深度神經網絡對其執行換臉操作。
為了制作該數據集,谷歌在過去一年中與多名有償和無償演員合作拍攝了數百個視頻。然后,谷歌使用公開可用的 deepfake 生成方法,基于這些視頻創建出數千個 deepfake 視頻。這些真假視頻共同構成了該數據集,谷歌創建此數據集的目的是支持 deepfake 檢測方面的研究。作為 FaceForensics 基準的一部分,該數據集目前已開源,研究社區可免費獲取并用于開發合成視頻檢測方法。
在多種場景中對演員進行拍攝。上圖為真實演員,下圖是對應的 deepfake 示例,二者的差異程度取決于創建 deepfake 所用的另一位演員。
deepfake 技術發展迅速,谷歌表示將繼續增加該數據集中的數據,并在該領域中持續開展合作。谷歌堅定地支持研究社區減輕合成媒介濫用所帶來的潛在危害,而該數據集的發布就是其中的重要一步。