成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI

發布于 2024-10-21 13:31
瀏覽
0收藏

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

?文章鏈接:  https://arxiv.org/pdf/2410.09732
項目鏈接:  https://opendatalab.github.io/LOKI/
數據&代碼:https://github.com/opendatalab/LOKI

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

總結速覽

引入了LOKI基準,以全面評估LMMs在區分合成數據上的表現。LOKI基準的亮點包括:

  • 全面模態評估。收集了近期熱門合成模型生成的高質量多模態數據,涵蓋視頻,圖像,3D數據,文本,音頻等多個模態。
  • 異構數據覆蓋。數據集中包括28個不同模態的細致分類,包括有專業的衛星,醫學等圖像,哲學,文言文等文本作品,環境音,音樂等音頻。
  • 多層次標注。基準包括了生成/真實標簽,可用于判斷題,多選題等基礎問題設置。還包含了細粒度異常注釋,可用于原因解釋等探究LMMs在可解釋合成數據檢測方面的題目。
  • 多模態合成數據評測框架。我們提出了一種全面的多模態評測框架,支持目前主流多模態大模型使用多種數據格式輸入,包括視頻,圖像,文本,音頻,點云等。

評估結果

在 LOKI 基準測試中,評估了 22 個開源 LMMs、6個 閉源LMMs 和幾個專家合成檢測模型。

主要發現總結如下:
對于合成數據檢測任務:

  • LMM 在合成數據檢測任務中表現出中等能力,具有一定程度的可解釋性和泛化能力,但與人類表現相比仍然存在差距;
  • 與專家合成檢測模型相比,LMM 表現出更高的可解釋性,并且與人類相比,可以檢測到肉眼看不見的特征,顯示出良好的發展前景。

對于LMMs能力:

  • 大多數 LMM 表現出一定的模型偏差,傾向于在其響應中偏向合成或真實數據;
  • LMM 缺乏專業領域知識,在衛星和醫學圖像等專業圖像類型上表現不佳;
  • 當前的 LMM 表現出不平衡的多模態能力,在圖像和文本任務中表現出色,但在 3D 和音頻任務中表現不佳;
  • 思路鏈提示增強了 LMM 在合成數據檢測中的表現,而簡單的少量提示無法提供必要的推理支持。?

動機

隨著擴散模型和大型語言模型(LLM)的快速發展,人工智能生成內容 (AIGC) 技術合成多模態數據已越來越多地將融入我們的日常生活。例如,SORA可以制作高度逼真的視頻,Suno可以創作出與專業藝術家相當水平的音樂。然而,合成多模態數據也帶來了重大風險,包括潛在的濫用和社會風險,包括使用LLM生成虛假新聞、使用擴散模型合成人臉以進行詐騙,以及互聯網訓練數據的潛在污染風險。由于人工智能綜合的便利性,未來的互聯網可能會充斥著人工智能生成的內容,使得辨別多模態數據的真實性和可信度的任務變得越來越具有挑戰性。

為了應對此類威脅,合成數據檢測領域近年來引起了廣泛關注。然而,目前大多數合成數據檢測方法主要側重于真實性評估,對預測結果的人為可解釋性存在一定的局限。多模態大模型 (LMMs) 近年來的快速發展引發了人們對其在檢測合成多模態數據方面性能的好奇。一方面,對于合成數據檢測任務,LMMs 可以用自然語言提供真實性判斷背后的推理,為增強可解釋性鋪平了道路。另一方面,區分真實數據和合成數據的任務涉及多模態數據的感知、知識和推理能力,本身就是對 LMM 能力的良好測試。因此,本文的重點是評估 LMM 在合成數據檢測任務中的性能。

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

LOKI基準構建

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

多模態合成數據檢測基準LOKI,專門用于全面評估 LMM 檢測合成數據的能力。如下圖所示,LOKI 涵蓋了多種模態,包括視頻、圖像、3D、文本和音頻,擁有超過 26 個特定的數據子類別。該基準利用細粒度異常注釋來構建各種分層的問題類型,包括判斷問題、多項選擇題、異常細節選擇和異常解釋問題,總計超過 18,000 個問題。

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

視頻: 收集了SORA、Keling、Open_sora等閉源和開源模型收集了500+高質量文本生成片段及其對應的真實領域樣本數據。對于 AI 生成的視頻片段,使用 LabelU工具來注釋異常細節,包括異常片段及其描述、異常關鍵幀和全局異常描述。如下圖所示,視頻中的“違反自然物理”和“幀閃爍”等異常也得到了全局注釋。此外,還突出顯示了從 02:54 到 06:27 的異常片段,并由人類注釋者解釋了相應的異常原因。此外,每個異常片段都包含一個異常關鍵幀,以便后續的 LMM 在處理視頻數據時準確讀取異常幀。

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

圖像:通過現有數據集提取、互聯網收集和新合成等方式,收集了來自 7 個子類別的 2,200 多幅圖像。圖像合成方法包括 FLUX、Midjourney、Stable Diffusion等,以確保數據的高質量和多樣性。對于合成的圖像數據,除了整體注釋外,我們還執行了異常區域標記和解釋,區域異常注釋允許更細粒度和更具體的標記,可用于生成后續的異常細節問題。

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

3D:基于OmniObject3D進行了全面分析,選擇同一域內的掃描實例作為地面實況。通過構建提示文本,合成了三個 Nerf 模型和三個 3D GS 模型,并使用來自高級商業模型 Clay 的結果和來自 GPTEval3D 的一些基于 Nerf 的結果對其進行了補充。我們總共收集了來自十種不同合成方法的 1,200 多個 3D 模型,包括合成數據和真實掃描數據。此外,我們對合成的 3D 數據的 RGB 四個視圖執行了紋理異常描述注釋,以及正常異常描述注釋。

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

音頻:收集了各種類別的音頻,包括語音、歌聲、環境聲音和音樂。語音和歌聲數據確保了說話者音色的一致性,來源于ASVSpoof2019和CtrSVDD Benchmark,涵蓋四個生成范式:TTS、VC、SVS 和 SVC。環境音頻數據來自 DCASE 2023 Task 7,其中真實音頻來自開發集,合成音頻使用多種方法從 Track A 生成。音樂數據來源于MusicCaps,合成音樂根據描述使用MusicGen、AudioLDM2-Music和 Suno生成。

?

文本:基于主流LLM模型(如 GPT-4、Qwen-Max、Llama 3.1-405B),使用總結再生方法生成了與原文相似的偽造文本。我們收集了八類文本數據,每個樣本與一段真實文本和一段模型生成的相似文本配對,共計 3,359篇文本。我們的文本數據按長度和語言分類,包括短文本(50-100 字)、中文本(100-200 字)和長文本(200 字以上),中文和英文數據比例為 1:1。

題目概覽

判斷題: 此任務需要大型語言模型 (LMM) 來確定輸入數據是合成的還是真實的。例如“提供的音頻是由 AI 生成的嗎?”

多選題: 

異常細節選擇: 基于來自視頻、圖像和 3D 等模態的細粒度異常注釋數據,有效地設計提示并利用 GPT-4o 生成異常細節選擇問題。例如,于視頻內容的細節異常,提問“哪些元素可以是不連續的?”


異常解釋:要求 LMM 獨立識別異常并解釋其原因。例如,提問“為什么提供的圖像是 AI 生成的?”

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

LMMs評估結果

下表展示了 LOKI 中各種模型在判斷和多項選擇題上的表現。對于合成數據判斷任務,閉源模型 GPT-4o 取得了最好的結果,總體準確率(不包括音頻)為 63.9%。當在多項選擇題中加入真實配對數據進行比較時,準確率進一步提高到 73.7%。在文本模態中,Claude-3.5 的表現優于其他 LMM 和 LLM,準確率超過 70%。在音頻 LMM 類別中,開源和閉源模型都表現出與隨機選擇相當的性能。對比不同模型在異常細節選擇和異常原因解釋任務上的表現。GPT-4o 在異常細節選擇中的準確率超過 75%,在異常原因解釋中的得分超過 70%。這表明像 GPT-4o 這樣的高級 LMM 已經展示了強大的細節理解能力,有效地分析和解釋“合成痕跡”。

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

人類在判斷任務中的平均表現為 76%,在多項選擇題中的平均表現為 86.4%,均比 LMM 方法高 10%。值得注意的是,如果 LMM 工具要應用于生產,其在判斷任務中的決策性能必須超過 90% 才能令人信服。隨著合成技術的進步,合成數據的明顯“痕跡”變得越來越微妙。然而,LMM 可以捕捉到微小的細節,例如人眼無法察覺的圖像特征,顯示出超越人類的潛力。同時LMM 在大多數任務中都表現出優于專家模型的性能。這主要是因為 LOKI 收集的合成數據來源豐富多樣,與現有數據域存在顯著差異,導致專家模型的泛化性能不佳。使用類似數據訓練的專家模型進行合成檢測的準確率應該會顯著提高。目前,LMM 在合成數據檢測中表現中等,但在泛化能力上超越專家模型。與傳統專家模型不同,LMM 具有解釋異常背后原因的能力,凸顯了其作為合成檢測器的獨特優勢。

矛盾之爭,AI合成數據可以騙過大模型嗎?中山大學聯合上海AI Lab提出合成檢測基準LOKI-AI.x社區

模型偏差。 LOKI基于召回率計算的歸一化偏差指數熱圖用于分析模型偏差。結果表明,大多數模型在合成數據檢測任務中表現出顯著的偏差,傾向于將數據錯誤地歸類為真實或合成。例如,GPT-4o 傾向于將文本數據歸類為真實,而傾向于將 3D 數據判斷為 AI 生成的。盡管實施了多種提問技巧來最大限度地減少提示效應,但大多數模型仍然存在明顯的偏差。


專家領域知識匱乏。 LOKI展示了 GPT-4o 在不同圖像子類別中的不同性能。實驗結果清楚地表明,GPT 對物體和風景等常見圖像類型表現出強大的識別能力,甚至超越了人類用戶。然而,GPT-4o 在衛星和醫學成像等專業領域以及文檔等較少訓練的圖像類型上的表現顯著下降。這表明當前的 LMM 仍然缺乏某些專家領域知識。


多模態能力不均衡。 通過比較各種 LMM 在不同模態下的性能。結果表明,目前的模型在圖像和文本等經常訓練的模態上表現出色,甚至在某些測試中超越了人類的表現。然而,它們在 3D 和音頻任務上的性能顯著下降,大多數開源模型缺乏相應的能力。未來的 AGI 要發展成為一個多功能的助手,需要具備更均衡的多模態能力。

結論

本文介紹了 LOKI,旨在評估大型多模態模型在檢測各種模態合成數據方面的性能。對 LMM 在視頻、圖像、3D、音頻、文本和專門子域上的性能進行了全面研究,還分析了 LMM 解釋合成數據中詳細異常的能力。實驗結果表明,LMM 在檢測合成數據方面具有一定的能力,并具有初步的解釋異常的能力。合成數據檢測任務還有效地評估了 LMM 在開發過程中的各種能力。這些發現突出了 LOKI 任務的挑戰性和綜合性,以及 LMM 在未來合成數據檢測任務中的潛力。我們旨在通過 LOKI 激發更強大、更可解釋的合成數據檢測方法,以應對快速發展的 AI 合成技術帶來的潛在風險。此外,合成和檢測之間的關系是對抗發展的,但它們是互惠互利的;更好、更可解釋的合成檢測器將進一步推動 AI 合成技術的發展。

本文轉自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/tMhiwd_FKjy5qT8Dr4vqag??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品久久久久久妇女 | 欧美国产精品一区二区三区 | h视频在线播放 | 日韩精品无码一区二区三区 | 视频三区| 成人午夜影院 | 成人福利网站 | 欧美日韩三级 | 久久丝袜| 国产精品久久久久无码av | 久草院线| 久久亚洲欧美日韩精品专区 | 免费久草| 久久综合伊人 | 爱爱小视频 | 欧美成人精品 | 成人午夜电影网 | 欧美一区二区三区四区五区无卡码 | 亚洲视频观看 | 亚洲区一区二 | 日本精品一区二区三区视频 | 国产69精品久久99不卡免费版 | 嫩草视频在线看 | 中文字幕一区二区三区日韩精品 | 国产高清一区 | 中文字幕日韩一区 | 最新av中文字幕 | 日韩一二三区 | 一级免费毛片 | 精品亚洲一区二区 | 综合久久久久久久 | 欧美一区二区三区在线观看视频 | 亚洲国产一区在线 | 精品一级电影 | 国产欧美日韩一区 | 成人在线观| av免费在线观看网站 | 成人在线一区二区三区 | 国产精品久久久99 | 天堂一区二区三区 | 国产精品成人一区二区三区 |