ChatGPT“克星”：用AI識別AI生成的文本，英語論文閱讀筆記都能測出

2022-12-14 14:09:47

無論是英語論文、還是閱讀筆記，只要在ChatGPT的知識范圍內，都可以拜托它幫忙完成，寫出來的內容也有理有據。

ChatGPT的出現，讓不少人看到了交期末大作業的曙光（手動狗頭）。

無論是英語論文、還是閱讀筆記，只要在ChatGPT的知識范圍內，都可以拜托它幫忙完成，寫出來的內容也有理有據。

不過，有沒有想過你的老師也準備用“AI文本檢測器”一類的東西來防止你作弊？

像這樣輸入一段看起來沒毛病的筆記，經過它一番檢測，認為這段文字“由AI編寫”（Fake）的可能性為99.98%！

△文本由ChatGPT生成

換個數學論文試試？ChatGPT的輸出看起來沒啥問題，卻仍然被它準確識破了：

△文本由ChatGPT生成

這可不是靠瞎蒙或猜測，畢竟對方同樣是個AI，還是個訓練有素的AI。

看到這有網友調侃：用魔法打敗魔法？

用AI寫的東西來訓練新AI

這個AI檢測器名叫GPT-2 Output Detector，是OpenAI聯合哈佛大學等高校和機構一起打造的。（沒錯，OpenAI自家做的）

輸入50個以上字符（tokens）就能較準確地識別AI生成的文本。

但即便是專門檢測GPT-2的模型，用來檢測其他AI生成文本效果也同樣不錯。

作者們先是發布了一個“GPT-2生成內容”和WebText（專門從國外貼吧Reddit上扒下來的）數據集，讓AI理解“AI語言”和“人話”之間的差異。

隨后，用這個數據集對RoBERTa模型進行微調，就得到了這個AI檢測器。

RoBERTa（Robustly Optimized BERT approach）是BERT的改進版。原始的BERT使用了13GB大小的數據集，但RoBERTa使用了包含6300萬條英文新聞的160GB數據集。

其中，人話一律被識別為True，AI生成的內容則一律被識別為Fake。

例如這是一段從Medium英文博客上復制的內容。從識別結果來看，很顯然作者是親自寫的（手動狗頭）：

△文字來源Medium@Megan Ng

當然，這個檢測器也并非100%準確。

AI模型參數量越大，生成的內容越不容易被識別，例如1.24億參數量的模型“被抓包”的概率就比15億參數更高。

同時，模型生成結果隨機性越高，AI生成內容被檢測出來的概率也會更低。

但即便將模型調整到生成隨機性最高（Temperature=1，越接近0生成隨機性越低），1.24億參數模型被檢測出的概率仍然是88%，15億參數模型被檢測出的概率仍然有74%。

這是OpenAI兩年前發布的模型，當時對GPT-2生成的內容就“一打一個準”。

現在面對升級版的ChatGPT，檢測英文生成內容的效果依舊能打。

但面對ChatGPT生成的中文，它的識別能力就不那么好了。例如讓ChatGPT來一段作文：

AI檢測器給出是人寫的概率為99.96%……

當然話說回來，ChatGPT也能檢測自己生成的文本。

所以，不排除老師將你的作業直接交給ChatGPT來識別：

One More Thing

值得一提的是，ChatGPT表示自己并不能訪問互聯網來搜索信息。

顯然，它還意識不到GPT-2 Output Detector這個AI檢測器的存在：

所以能不能像網友所說，讓ChatGPT生成一段“不被AI檢測器測出來的”內容呢？

很遺憾不能：

所以大作業還是自己寫吧……

[4]https://medium.com/user-experience-design-1/how-chatgpt-is-blowing-google-out-of-the-water-a-ux-breakdown-784340c25d57

責任編輯：武曉燕來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看