準(zhǔn)確性極低！OpenAI下架AI檢測器，ICML杰出論文被打臉

作者：新智元 2023-07-27 13:27:06

人工智能

OpenAI下線AI檢測器，ICML獲獎水印論文被同校研究打臉：AIGC無法檢測，水印檢測器都無效！

OpenAI剛剛把自家的文本檢測器Classifier給下線了，總共上線才半年。

圖片

今年年初，OpenAI興致勃勃地發(fā)布了Classifier，宣稱有了它，誰都能知道某一段文本是不是由GPT生成的，不說拯救世界吧，最起碼老師有福了。

但半年過去，Classifier直接寄了。

OpenAI表示，這東西根本實(shí)現(xiàn)不了設(shè)計的時候的目的，準(zhǔn)確率太低。

圖片

而且，小編覺得OpenAI下線的行為充分說明了一個事情，就是AI檢測器這東西完全不靠譜，可能方向都是錯的。

因?yàn)樵贏IGC充斥網(wǎng)絡(luò)，引發(fā)了不少混亂的今天，AI檢測器本應(yīng)該是一個非常有用的東西。

就算檢測準(zhǔn)確率因?yàn)榧夹g(shù)所限，暫時還不是很高，也可以讓用戶一邊用著一邊改進(jìn)技術(shù)，積累用戶。

直接下線，基本就是OpenAI宣告了現(xiàn)有技術(shù)方向的死刑。

提前破解ICML杰出論文中提出的水印方法

而更有意思的是，剛剛獲得了ICML杰出論文獎的一篇論文，給出了一種給LLM生成的內(nèi)容加水印的可行方法。

圖片

工作原理是，在單詞生成前隨機(jī)選擇一組綠色標(biāo)記，然后在采樣過程中柔和地促進(jìn)綠色標(biāo)記的使用。

圖片

但就在前幾天，另一篇同樣由馬里蘭大學(xué)的另一個研究團(tuán)隊(duì)發(fā)表的論文，卻直接打臉了ICML的杰出論文。

圖片

論文地址：https://arxiv.org/abs/2303.11156

他們在論文里直接就對標(biāo)這篇獲獎?wù)撐牡乃》绞剑岢隽俗屗∈У姆椒ā?/span>

圖片

加水印的論文能拿ICML杰出論文獎，那攻破水印的論文是不是也能高低給個「更杰出論文獎」？

圖片

而作者之一的馬里蘭大學(xué)CS系副教授Soheil Feizi，在推上陰陽怪氣地表示，「可千萬別讓前幾天說要加水印的幾個哥們看到。」

圖片

這也就很好的印證了為什么OpenAI要頭也不回地把自己剛上線半年的GPT檢測器下線。

檢測器，不行！

論文很長，但很好概括。

簡單來說幾句話：

· 可靠檢測AI生成的文本，對LLM的訓(xùn)練和使用非常重要。

· 從經(jīng)驗(yàn)上講，現(xiàn)在的檢測器不行。

· 從理論上講，現(xiàn)在的檢測器不行。

· 結(jié)論：現(xiàn)在檢測不出來。

圖片

在經(jīng)驗(yàn)這一塊，研究人員證明了，在生成文本模型之上再用上輕型仿寫器的仿寫攻擊，就可以破解一系列的檢測器。

甭管是用了水印的檢測器，還是基于神經(jīng)網(wǎng)絡(luò)的檢測器，還是零樣本分類器。

而就算是為規(guī)避轉(zhuǎn)述攻擊而設(shè)計的檢測器，在面臨遞歸仿寫的時候還是不靈。

再來，從理論上，研究人員證明，隨著語言模型越來越復(fù)雜，越來越善于模擬人類的文本，再好的檢測器性能也得拉閘。

甚至可能就比隨機(jī)分類器好一點(diǎn)罷了。

而單獨(dú)針對水印問題，研究人員表示，只要有人能推測或者找出隱藏的水印信息，然后添到人類自己寫的文本里，那人類的文本也會被判定為LLM生成的了。

意思就是說，你辛辛苦苦寫了篇文章，我偷偷把找到的隱藏水印信息加進(jìn)去，那你的文章就會被認(rèn)為是生成的，你會被指控欺騙。

哪里還有安全性可言呢？

原理介紹

為了能進(jìn)一步探究這一點(diǎn)，最近的許多研究都集中在檢測AI生成的文本上。

一些檢測工作將這一問題作為二元分類問題進(jìn)行研究。

例如，OpenAI對基于RoBERTa的GPT-2檢測器模型進(jìn)行了微調(diào)，以區(qū)分非AI生成的文本和GPT-2生成的文本。這就要求對這種檢測器進(jìn)行微調(diào)，并對每個新的LLM進(jìn)行監(jiān)督，以實(shí)現(xiàn)可靠的檢測。

但是，這些依賴神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測的方法很容易受到惡意和中毒攻擊。

而另一個研究方向是零樣本（zero-shot）AI文本檢測，不需要任何額外的訓(xùn)練成本。這些工作評估文本的每個標(biāo)記的預(yù)期的對數(shù)概率，并執(zhí)行閾值檢測哪些是AI生成的文本。

Mitchell等人觀察到，AI生成的文本往往位于文本對數(shù)概率的負(fù)曲率上。他們利用這一觀察結(jié)果，提出了一種零樣本LLM文本檢測方法DetectGPT。

而另一項(xiàng)研究也很重要，就是給AI生成的文本添加水印，以方便檢測。

眼不眼熟，驚不驚喜。

Kirchenbauer等人提出的軟水印技術(shù)，將標(biāo)記分為綠色和紅色列表兩類。

帶水印的LLM會從由其前綴標(biāo)記決定的綠色列表中，以高概率采樣一個標(biāo)記。

這些水印通常不會被人類察覺。不過，除非所有功能強(qiáng)大的LLM都受到類似的保護(hù)，否則水印可能并不會是防止LLM被利用的有效工具。

Krishna等人通過將LLM的輸出存儲在數(shù)據(jù)庫中，引入了一種基于信息檢索的檢測器。

對于每一個候選段落，他們的算法會在該數(shù)據(jù)庫中搜索語義相似的匹配項(xiàng)，讓檢測的過程不受轉(zhuǎn)述的影響。

然而，存儲用戶LLM的對話可能會導(dǎo)致嚴(yán)重的隱私問題，這個很好理解。

所以說，在本文中，研究人員通過經(jīng)驗(yàn)和理論分析表明，這些最先進(jìn)的人工智能文本檢測器在實(shí)際應(yīng)用場景中并不可靠。

研究人員研究了對軟水印的經(jīng)驗(yàn)攻擊，以及各種零樣本、基于檢索和基于神經(jīng)網(wǎng)絡(luò)的檢測器。

下面這個定理表明，隨著兩個分布之間的總變化減小，即使是最佳探測器的性能也會下降。它將最佳檢測器D的接收器工作特性曲線下面積（AUROC）定義為如下這個公式——

圖片

其中，TV(M, H) 是模型生成的文本分布 M 與人類生成的文本分布 H 之間的總變異距離。

它表明，隨著總變化的減小，最佳檢測性能將接近 1/2，即與隨機(jī)將文本標(biāo)記為人工智能或人類生成的分類器相對應(yīng)的 AUROC。

測試的不可能性結(jié)果并不意味著檢測性能一定會變得和隨機(jī)的一樣差，而是意味著可靠的檢測可能無法實(shí)現(xiàn)。

在大多數(shù)實(shí)際場景中，如果檢測器能達(dá)到較高的真陽性率（比如 90%），同時保持較低的假陽性率（比如 1%），那么它就被認(rèn)為是好的檢測器。

而當(dāng)兩個分布重疊超過 11%（即總變化 < 0.89）時，就不可能實(shí)現(xiàn)這一目標(biāo)。

這項(xiàng)分析的目的是告訴大家，在使用檢測系統(tǒng)檢測AI模型生成的文本時要小心謹(jǐn)慎。任何此類系統(tǒng)在部署到現(xiàn)實(shí)世界之前，都需要對其可靠性和偏差進(jìn)行獨(dú)立、嚴(yán)格的評估，最好是對旨在規(guī)避檢測的語言模型進(jìn)行評估。

研究人員用嚴(yán)密性分析補(bǔ)充了結(jié)果，證明對于給定的人類分布 H，存在一個分布 M 和一個檢測器 D，對于它們，上述約束相等成立。

后文中會多次使用到這個AUROC公式。

過轉(zhuǎn)述攻擊（Paraphrasing Attack）來規(guī)避AI檢測器

檢測AI生成的文本對于確保LLM的安全性和避免type-II錯誤(沒有將LLM輸出檢測為AI生成的文本)至關(guān)重要。

測試轉(zhuǎn)述攻擊的方式包括：軟水印，零樣本檢測器，基于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的檢測器和基于檢索的檢測器。

對含有水印內(nèi)容的轉(zhuǎn)述攻擊。

在這個測試中，語言模型的輸出的token被從一個由前綴決定的綠色名單種篩選出來。

研究人員期望這個轉(zhuǎn)述者能把輸出token中的水印印記給消除掉。

研究人員用一個由T5為基礎(chǔ)的模型，以及一個PEGASUS為基礎(chǔ)的模型做為轉(zhuǎn)述者。

作為測試的LLM是一個由大量數(shù)據(jù)訓(xùn)練過的模型，主要是用作文字補(bǔ)全的任務(wù)。

而轉(zhuǎn)述模型一個專門微調(diào)來作為轉(zhuǎn)述作用的小型模型。

研究人員將帶水印的LLM文本逐句輸入轉(zhuǎn)述模型中，通過PEGASUS的轉(zhuǎn)述模型轉(zhuǎn)述過的內(nèi)容使得檢測器的檢測率從97%下降到了80%，而且復(fù)雜度僅為3.5。（結(jié)果如下圖）

圖片

下表表示轉(zhuǎn)述前后目標(biāo)水印LLM的示例輸出。研究人員還專門用了一個基于T5模型的轉(zhuǎn)述器，表明這樣的轉(zhuǎn)述器都能使得檢測器的準(zhǔn)確率從97%下降到57%。

圖片

下圖顯示了檢測精度和基于T5模型的解釋器輸出文本質(zhì)量的取舍關(guān)系（trade-off）。

圖片

對于沒有水印的AI文本的轉(zhuǎn)述攻擊

沒有水印的檢測器，包括了經(jīng)過訓(xùn)練的檢測器、基于檢索的檢測器和零樣本檢測器。

他們都是利用AI生成的文本中存在的LLM特定簽名來進(jìn)行檢測的。

基于神經(jīng)網(wǎng)絡(luò)的經(jīng)過訓(xùn)練的檢測器，例如OpenAI的RoBERTa-Large-Detector，經(jīng)過對包含人類和AI生成文本的數(shù)據(jù)集進(jìn)行訓(xùn)練或微調(diào)。

零樣本分類器利用源LLM輸出的特定統(tǒng)計屬性進(jìn)行檢測。基于檢索的方法在存儲了LLM輸出的數(shù)據(jù)庫中搜索候選段落。在這里，研究人員對這些非水印檢測器進(jìn)行實(shí)驗(yàn)，以展示它們對研究人員的改寫攻擊是脆弱的。

研究團(tuán)隊(duì)使用預(yù)訓(xùn)練的擁有355M參數(shù)的GPT-2 Medium模型對XSum數(shù)據(jù)集中的200個段落進(jìn)行攻擊和評估。

他們使用基于T5的轉(zhuǎn)述模型（參數(shù)為222M）來轉(zhuǎn)述目標(biāo)GPT-2 Medium模型生成的文本。

圖片

上圖展示了檢測器受到研究人員的轉(zhuǎn)述攻擊后的效果。

DetectGPT的AUROC得分從攻擊前的96.5% 下降到攻擊后的59.8%。

需要注意的是，AUROC值為50%的話，意味著效果和隨機(jī)區(qū)分就是一樣了。

其余的零樣本檢測器在研究人員的攻擊后表現(xiàn)也較差。

盡管經(jīng)過訓(xùn)練的基于神經(jīng)網(wǎng)絡(luò)的檢測器的性能比零樣本檢測器要好，但也不是十分靠譜。

例如，OpenAI的RoBERTa-Large-Detector在實(shí)際誤報率為1%的情況下，其真陽性率從100% 下降到約80%。

通過對檢測器進(jìn)行多次查詢，攻擊者可以更高效地進(jìn)行轉(zhuǎn)述，將RoBERTa-Large-Detector的真陽性率降低到60%。

圖片

上表顯示了GPT-2模型在攻擊前后的例子輸出的示例。

改寫后的輸出表達(dá)流暢，與檢測到的GPT-2文本含義相同。

研究人員測量了攻擊前、改寫后和多次查詢后進(jìn)行轉(zhuǎn)述攻擊后的GPT-2輸出文本的困惑度分別為16.3，27.2和18.3。

研究人員還對這些檢測器進(jìn)行了遞歸改寫的有效性檢驗(yàn)。

他們使用DIPPER轉(zhuǎn)述器連續(xù)進(jìn)行i次遞歸轉(zhuǎn)述 (ppi)，生成i個GPT-2生成文本的轉(zhuǎn)述版本。

研究人員在假定黑盒訪問檢測器的情況下，選擇得分最低的改寫文本作為結(jié)果。

圖片

上圖是ROC曲線。

可以看出所有檢測器的AUROC值都大幅下降，突顯了這些檢測方法在經(jīng)過遞歸轉(zhuǎn)述后的十分脆弱。

例如，DetectGPT在攻擊后的AUROC曲線值從82% 下降到18%。

對于檢索防御的轉(zhuǎn)述攻擊

在先前的研究中，基于檢索的檢測器被設(shè)計成用來專門對抗轉(zhuǎn)述攻擊。

原理是，可以維護(hù)一個數(shù)據(jù)庫，其中存儲了用戶與LLM的對話。

對于一個候選段落，檢測器依賴于從數(shù)據(jù)庫中檢索語義相似的段落。

如果相似性大于一個固定的閾值，該候選段落被分類為由人工智能生成的。

先前的研究認(rèn)為，相較于其他文本檢測器，他們的防御方法在應(yīng)對大型、具有110億參數(shù)的改寫器DIPPER后的內(nèi)容依然具有魯棒性。

然而，研究人員發(fā)現(xiàn)先前的檢測器可能會受到遞歸轉(zhuǎn)述攻擊的影響。

他們們從XSum數(shù)據(jù)集中選取了100個標(biāo)記為人工智能輸出的段落，并將它們存儲在檢測器的數(shù)據(jù)庫中。

圖片

如上圖所示，在經(jīng)過一輪簡單的改寫后，這個檢測器可以檢測出所有的人工智能輸出。

然而，經(jīng)過五輪遞歸轉(zhuǎn)述后，檢測準(zhǔn)確率顯著下降到只有25%。

這表明遞歸轉(zhuǎn)述可以規(guī)避用于檢索的語義匹配算法。

使用大型的改寫器DIPPER有助于保持困惑度，上圖所示。

此外，檢索過程本身也會存在問題，因?yàn)楹苡锌赡軙址赣脩舻碾[私。

對于AI生成的文字不可能有準(zhǔn)確的檢測方法

現(xiàn)實(shí)世界中語言模型的濫用，需要對語言模型產(chǎn)生的文本進(jìn)行準(zhǔn)確的識別。

然后隨著模型的改進(jìn)，AI生成的文本模仿人類逃避檢測的能力也越來越高。

這一部分主要就是介紹了AI通用檢測器最致命的缺陷，即最好的檢測器也會隨著模型性能的提高而失效。

從而不能過于依賴聲稱能識別AI生成文本的AI檢測器。

根據(jù)公式AUROC（D），最好的檢測結(jié)果基線性能也會逐漸的趨向于隨機(jī)分類的結(jié)果

圖片

而且即便帶有水印的檢測器，只要適當(dāng)?shù)亩xM和H，讓他們適用于特定的場景，比如特定的寫作風(fēng)格或者進(jìn)行句子轉(zhuǎn)述，檢測器也很難檢測出來。

人類和AI生成文字分布的預(yù)估全變差

接著，研究人員估算了人類和AI文本分布的全變差（TV，Total Variation）。

具體來說，估算的是人類文本分布（WebText）和OpenAI的幾個模型的輸出分布之間的總變化。

對于兩個分布H和M，它們之間的總變化被定義為它們在樣本空間Ω上分配給任何事件E的概率之間的最大差異。

即下面這個公式。

圖片

研究人員在人類和AI文本分布的樣本上訓(xùn)練了RoBERTa大型分類器。

給定一個文本序列，該分類器會產(chǎn)生一個介于0和1之間的分?jǐn)?shù)，表示模型認(rèn)為該序列是AI生成的可能性有多大。

假定AI文本分布為陽性類（positive），研究人員會為該分?jǐn)?shù)選擇一個閾值，讓使用驗(yàn)證集樣本的真陽性率（TPR）和假陽性率（FPR）之差達(dá)到最大。

最后，研究人員將總變化估算為測試集上TPR與FPR之間的差值。這個差值實(shí)際上就是人類和AI生成的文本分布在計算閾值時，分配給上面提到的那個分類器的概率差異，也就是總變異的下限。

下圖是使用RoBERTa-large架構(gòu)估算的四種不同文本序列長度（25、50、75和100）的GPT-2模型（小型、中型、大型和超大型）的總變化估計值。

研究人員為每個GPT-2模型和序列長度訓(xùn)練該架構(gòu)單獨(dú)的實(shí)例，目的是估算相應(yīng)分布的總變化。

團(tuán)隊(duì)觀察到，模型越大、越復(fù)雜，人類和AI文本分布之間的總變化估值越在下降。這表明，隨著語言模型變得越來越強(qiáng)大，其輸出分布與人類生成的文本分布之間的統(tǒng)計差異也會消失。

圖片

接下來，研究人員使用WebText和ArXiv的摘要數(shù)據(jù)集作為人類文本。

在三種模型中，GPT-3-Ada的文本生成能力最弱，而GPT-3-Curie的文本生成能力最強(qiáng)。

由于這些模型的輸出沒有可用的免費(fèi)數(shù)據(jù)集，研究人員就使用了OpenAI的API服務(wù)生成所需的數(shù)據(jù)集。

他們將WebText中的每個人類文本序列拆分為prompt（提示）和completion（完成），其中pompt包含原始序列的前100個詞組，completion包含其余詞組。

然后，研究人員使用提示語，使用GPT-3模型生成完成語。然后用和上面相同的方式，使用RoBERTa-large模型估計總變化。

而使用人類文本序列的前100個標(biāo)記作為prompt，研究人員就可以控制文本生成的上下文。這樣就可以比較出在相同語境下，生成的文本與人類文本之間的相似度了。

下圖左側(cè)繪制的是GPT-3模型相對于WebText的總變化估計值，和上面GPT-2那個模型的結(jié)論類似，研究人員發(fā)現(xiàn)在所有序列長度中，最強(qiáng)大的GPT-3-Curie總變化最小。

然而，GPT-3-Babbage并沒有遵循這一趨勢，它的總變化甚至比最弱的GPT-3-Ada還要高。

鑒于WebText包含了來自大量互聯(lián)網(wǎng)來源的數(shù)據(jù)，研究人員還嘗試了一些更有針對性的方案，例如生成科學(xué)文獻(xiàn)的內(nèi)容。

研究人員使用ArXiv摘要數(shù)據(jù)集作為人類文本，并估算了上述三種模型的總變化量，即下圖右側(cè)所示。

他們觀察到，對于大多數(shù)序列長度，總變化在一系列模型中都有所減少。

這進(jìn)一步證明，隨著語言模型能力的提高，其輸出結(jié)果與人類文本的差異會越來越大，從而使其更難被檢測到。

圖片

對于AI文本生成模型的欺騙攻擊

一個有效的AI文本檢測方案應(yīng)該要同時能識別出AI文本，也要能識別出不是由AI生成的文本。

當(dāng)欺騙者使用非AI生成文稿對檢測器進(jìn)行欺騙攻擊時，它需要能做出回應(yīng)。

本節(jié)中研究人員演示了軟水印和基于檢索的檢測器都是會被這種欺騙攻擊攻陷的。

在先前的研究中，帶有水印的大語言模型的輸出可以被通過帶有某些特定模式的token而被追蹤到。

這些特定模式可以很容易地被準(zhǔn)確地檢測出來。

而軟水印文本主要是由綠色列表的token組成。

只要攻擊者能夠知道這個綠色列表，他們就能人工生成符合水印的內(nèi)容，注入到人類生成的文本后，就會讓該文本被檢測器檢測為由AI生成。

攻擊者的目標(biāo)是為N詞匯表中最常用的單詞計算一個綠名單代理。

研究人員在實(shí)驗(yàn)中使用了一個小的值，N=181。

攻擊者查詢了帶水印的POT-1.3B10^6次，觀察輸出中成對出現(xiàn)的token，來估算出N token。

一個綠色列表值很高的token可能會出現(xiàn)在綠色列表中。（如下圖）

圖片

研究人員幫助攻擊者建立了一個工具去創(chuàng)造帶水印的句子，只要給綠色名單代理就能生成。

通過這種方式，研究人員可以很容易地欺騙水印模型。下圖是一些實(shí)例。

圖片

下圖是在進(jìn)行欺騙攻擊之后水印檢測器ROC曲線的變化。

圖片

參考資料：

https://arxiv.org/abs/2303.11156

責(zé)任編輯：武曉燕來源：新智元

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看