成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

哈工大南洋理工提出全球首個「多模態DeepFake檢測定位」模型：讓AIGC偽造無處可藏

作者：新智元 2023-04-10 16:34:46

人工智能新聞

為了應對多模態假新聞，本文提出檢測并定位多模態媒體篡改任務（DGM）。與現有的單模態DeepFake檢測任務相比，DGM不僅判斷輸入圖像-文本對的真假，也嘗試定位篡改內容（例如圖像篡改區域和文本篡改單詞）。

由于如Stable Diffusion等視覺生成模型的快速發展，高保真度的人臉圖片可以自動化地偽造，制造越來越嚴重的DeepFake問題。

隨著如ChatGPT等大型語言模型的出現，大量假本文也可以容易地生成并惡意地傳播虛假信息。

為此，一系列單模態檢測模型被設計出來，去應對以上AIGC技術在圖片和文本模態的偽造。但是這些方法無法較好應對新型偽造場景下的多模態假新聞篡改。

具體而言，在多模態媒體篡改中，各類新聞報道的圖片中重要人物的人臉（如圖 1 中法國總統人臉）被替換，文字中關鍵短語或者單詞被篡改（如圖 1 中正面短語「is welcome to」被篡改為負面短語「is forced to resign」）。

這將改變或掩蓋新聞關鍵人物的身份，以及修改或誤導新聞文字的含義，制造出互聯網上大規模傳播的多模態假新聞。?

圖1. 本文提出檢測并定位多模態媒體篡改任務（DGM⁴）。與現有的單模態DeepFake檢測任務不同，DGM⁴不僅對輸入圖像-文本對預測真假二分類，也試圖檢測更細粒度的篡改類型和定位圖像篡改區域和文本篡改單詞。除了真假二分類之外，此任務對篡改檢測提供了更全面的解釋和更深入的理解。

表1: 所提出的DGM⁴與現有的圖像和文本偽造檢測相關任務的比較

檢測并定位多模態媒體篡改任務

為了解此新挑戰，來自哈工大（深圳）和南洋理工的研究人員提出了檢測并定位多模態媒體篡改任務（DGM⁴）、構建并開源了DGM⁴數據集，同時提出了多模態層次化篡改推理模型。目前，該工作已被CVPR 2023收錄。

論文地址：?https://arxiv.org/abs/2304.02556?

GitHub：https://github.com/rshaojimmy/MultiModal-DeepFake

項目主頁：https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

如圖1和表1所示，檢測并定位多模態媒體篡改任務（Detecting and Grounding Multi-Modal Media Manipulation （DGM⁴））和現有的單模態篡改檢測的區別在于：

1）不同于現有的DeepFake圖像檢測與偽造文本檢測方法只能檢測單模態偽造信息，DGM⁴要求同時檢測在圖像-文本對中的多模態篡改；

2）不同于現有DeepFake檢測專注于二分類，DGM⁴進一步考慮了定位圖像篡改區域和文本篡改單詞。這要求檢測模型對于圖像-文本模態間的篡改進行更全面和深入的推理。

檢測并定位多模態媒體篡改數據集

為了支持對DGM⁴研究，如圖2所示，本工作貢獻了全球首個檢測并定位多模態媒體篡改（DGM⁴）數據集。

圖2. DGM⁴數據集

DGM⁴數據集調查了4種篡改類型，人臉替換篡改（FS）、人臉屬性篡改（FA）、文本替換篡改（TS）、文本屬性篡改（TA）。

圖2展示了 DGM⁴ 整體統計信息，包括（a）篡改類型的數量分布；（b）大多數圖像的篡改區域是小尺寸的，尤其是對于人臉屬性篡改；（c）文本屬性篡改的篡改單詞少于文本替換篡改；（d）文本情感分數的分布；（e）每種篡改類型的樣本數。

此數據共生成23萬張圖像-文本對樣本，包含了包括77426個原始圖像-文本對和152574個篡改樣本對。篡改樣本對包含66722個人臉替換篡改，56411個人臉屬性篡改，43546個文本替換篡改和18588個文本屬性篡改。

多模態層次化篡改推理模型

本文認為多模態的篡改會造成模態間細微的語義不一致性。因此通過融合與推理模態間的語義特征，檢測到篡改樣本的跨模態語義不一致性，是本文應對DGM⁴的主要思路。

圖3. 提出的多模態層次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)

基于此想法，如圖3所示，本文提出了多模態層次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)。

此模型建立在基于雙塔結構的多模態語義融合與推理的模型架構上，并將多模態篡改的檢測與定位細粒度層次化地通過淺層與深層篡改推理來實現。

具體而言，如圖3所示，HAMMER模型具有以下兩個特點：

1）在淺層篡改推理中，通過篡改感知的對比學習（Manipulation-Aware Contrastive Learning）來對齊圖像編碼器和文本編碼器提取出的圖像和文本單模態的語義特征。同時將單模態嵌入特征利用交叉注意力機制進行信息交互，并設計局部塊注意力聚合機制（Local Patch Attentional Aggregation）來定位圖像篡改區域；

2）在深層篡改推理中，利用多模態聚合器中的模態感知交叉注意力機制進一步融合多模態語義特征。在此基礎上，進行特殊的多模態序列標記（multi-modal sequence tagging）和多模態多標簽分類（multi-modal multi-label classification）來定位文本篡改單詞并檢測更細粒度的篡改類型。

實驗結果

如下圖，實驗結果表明研究團隊提出的HAMMER與多模態和單模態檢測方法相比，都能更準確地檢測并定位多模態媒體篡改。

圖4. 多模態篡改檢測和定位結果可視化

圖5. 關于篡改文本的模型篡改檢測注意力可視化

圖4提供了一些多模態篡改檢測和定位的可視化結果，說明了HAMMER可以準確地同時進行篡改檢測與定位任務。圖5提供了關于篡改單詞的模型注意力可視化結果，進一步展示了HAMMER是通過關注與篡改文本語義不一致性的圖像區域來進行多模態篡改檢測和定位。

總結

本工作提出了一個新的研究課題：檢測并定位多模態媒體篡改任務，來應對多模態假新聞。
本工作貢獻了首個大規模的檢測并定位多模態媒體篡改數據集，并提供了詳細豐富的篡改檢測與定位的標注。團隊相信它可以很好地幫助未來多模態假新聞檢測的研究。
本工作提出了一個強大的多模態層次化篡改推理模型作為此新課題很好的起始方案。

本工作的代碼和數據集鏈接都已分享在本項目的GitHub上，歡迎大家Star這個GitHub Repo，使用DGM⁴數據集和HAMMER來研究DGM⁴問題。DeepFake領域不只有圖像單模態檢測，還有更廣闊的多模態篡改檢測問題亟待大家解決！

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：伊人久久成人 | 九九热在线免费视频 | 97精品超碰一区二区三区 | 久久久久国产一区二区三区四区 | 亚洲精品福利视频 | 野狼在线社区2017入口 | 日韩三| 欧美视频成人 | 成人免费视频网站在线观看 | aa级毛片毛片免费观看久 | 欧美一二三区 | 亚洲一区日韩 | 日操操夜操操 | 亚洲一区二区中文字幕 | 狠狠操av| 国产免费一区二区 | 日韩av成人在线观看 | 国产精品美女久久久av超清 | 亚洲最新在线视频 | 色综合天天天天做夜夜夜夜做 | 日韩精品一区二 | www精品美女久久久tv | 国产国产精品久久久久 | 国产精品精品视频一区二区三区 | 国产精品一区二区欧美黑人喷潮水 | 成人免费视频 | 啪啪网页 | 国产成在线观看免费视频 | 每日更新av | 亚洲成人 av | 国产成人在线播放 | 日韩欧美在线观看 | 国产精品黄 | 精品乱子伦一区二区三区 | 欧美性受 | 97免费视频在线观看 | 日韩精品电影一区亚洲 | 日本欧美国产在线 | 日本黄色的视频 | 九九99精品 | 在线观看中文字幕dvd播放 |