成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

復旦等提出「中國版GPT-Zero」!畢業論文AI率自查神器|AAAI 2025

人工智能 新聞
復旦大學等機構的研究人員最新提出的AI內容檢測器ImBD涵蓋多任務檢測(潤色、擴寫、改寫、純生成),支持英語、中文、西班牙語、葡萄牙語等多種主流語言;僅需500對樣本、5分鐘訓練時間,就能實現超越商用檢測器!

現如今,大語言模型(LLMs)已經在文本生成領域達到了接近人類水平的能力。

然而,隨著這些模型被廣泛應用于文本創作,其在考試、學術論文等領域的濫用引發了嚴重關注。特別是在當前場景下,用戶往往不是完全依賴AI生成內容,而是利用AI對人類原創內容進行修改和潤色,這種混合型的內容給檢測帶來了前所未有的挑戰。

傳統的機器生成文本檢測方法在識別純AI生成內容時表現良好,但面對機器修訂文本時常常誤判。這是因為機器修訂文本通常只對原始人類文本做出細微改動,同時包含了大量人類創作的特征和領域專業術語,這使得基于概率統計的傳統檢測方法難以準確識別。

近期,來自復旦大學、華南理工大學、武漢大學以及UCSD、UIUC等機構的研究團隊提出了創新的檢測框架ImBD(Imitate Before Detect),從「模仿」的角度切入:通過先學習和模仿機器的寫作風格特征(如特定詞匯偏好、句式結構等),再基于這些特征進行檢測。

圖片

論文地址:https://arxiv.org/abs/2412.10432

項目主頁:https://machine-text-detection.github.io/ImBD

代碼鏈接:https://github.com/Jiaqi-Chen-00/ImBD

圖片

在線演示:https://ai-detector.fenz.ai/

研究團隊創新性地引入了風格偏好優化(Style Preference Optimization, SPO),使評分模型能夠精確捕捉機器修訂的細微特征。

實驗表明,該方法在檢測GPT-3.5和GPT-4修改的文本時,準確率分別提升了15.16%和19.68%,僅需1000個樣本和5分鐘訓練就能超越商業檢測系統的性能。該成果已被AAAI2025接收(中稿率23.4%)。

問題背景

隨著大語言模型(LLMs)的快速發展和廣泛應用,AI輔助寫作已經成為一種普遍現象。

然而,這種技術的普及也帶來了新的挑戰,特別是在需要嚴格管控AI使用的領域,如學術寫作、新聞報道等。與傳統的純機器生成文本不同,當前更常見的場景是用戶利用AI對人類原創內容進行修改和潤色,這種混合型的內容使得檢測工作變得異常困難。

如圖1(a-c)所示,相比于人類原創文本和純機器生成文本之間的明顯差異,機器修訂文本往往與原始人類文本只有細微的改動。

圖片

圖1 人類撰寫、機器生成和機器修訂文本的對比分析

傳統的機器生成文本檢測方法主要依賴于預訓練語言模型的token概率分布特征,這些方法假設機器生成的文本通常具有更高的對數似然或負概率曲率。然而,當面對機器修訂文本時,這些方法的性能顯著下降。

如圖1(d)所示,在檢測機器修訂文本時,即使是最先進的Fast-DetectGPT [1]方法也出現了明顯的性能下降。

這種性能降低主要源于兩個方面:

- 首先,機器修訂文本保留了大量人類創作的內容和領域特定術語,這些特征往往會誤導檢測器將文本判定為人類撰寫;

- 其次,隨著GPT-4等新一代語言模型的出現,機器的寫作風格變得更加微妙和難以捕捉。

特別值得注意的是,機器修訂文本的特征往往體現在一些細微的文體特征上。如圖1所示的例子,這些特征包括獨特的詞語選擇(如傾向使用「stunning」、「once-in-a-lifetime」等詞)、復雜的句子結構(如更多的從句使用)以及統一的段落組織方式。

這些風格特征雖然細微,但卻是區分人類原創和機器修訂文本的關鍵線索。然而,由于這些特征往往與人類創作的內容緊密交織,現有的檢測方法難以有效捕捉和利用這些特征,這就導致了檢測準確率的下降。

因此,如何在保留了人類創作內容的文本上準確識別機器修訂的痕跡,是當前亟待解決的關鍵問題。這不僅關系到學術誠信的維護,也影響著在線信息的可信度評估。開發一種能夠有效識別機器修訂文本的檢測方法,對于維護不同領域的內容質量和可信度具有重要意義。

基于風格模仿的機器修改文本檢測框架ImBD

ImBD的核心創新在于將風格感知機制引入機器修改文本檢測領域,首次提出了結合偏好優化和風格概率曲線的雙重檢測框架。

不同于傳統方法僅關注內容層面的概率差異,本文通過精確捕捉機器修改文本的風格特征,有效解決了當前檢測方法在處理部分人工內容場景下的局限性。

問題形式化

在機器修改文本檢測任務中,我們將輸入文本表示為標記序列圖片,其中n為序列長度。

核心目標是構建一個決策函數圖片,通過評分模型圖片判定文本是人類撰寫(輸出0)還是經過機器修改(輸出1)。這種形式化將復雜的文本分析問題轉化為可處理的二元分類任務。

基礎理論

傳統檢測方法主要基于一個關鍵觀察:機器生成傾向于選擇高概率標記,而人類寫作則展現更多樣的概率分布。這種差異可以通過如下不等式形式化表達:

圖片

其中,原始人類文本記為圖片,機器修訂的文本記為圖片,等式左端表示機器修改文本的對數概率,通過計算在擾動采樣分布圖片下的期望值來估計;右端則表示人類寫作文本的對數概率及其對應的擾動期望值。這個不等式反映了機器生成文本在擾動后往往出現更顯著的概率下降,而人類寫作文本則保持相對穩定的概率分布特征。

如圖2(左)所示,在純機器生成文本中,這種差異表現得最為明顯。然而,當涉及機器修改文本時,如圖2(右)所展示的,兩類文本的概率分布會出現顯著重疊,導致傳統檢測方法失效。

圖片

圖2 基于概率曲線的人機文本區分效果對比圖

偏好優化的風格模仿

為克服上述限制,我們提出通過偏好優化來增強模型對機器風格的感知能力。如圖3(b)所示,這一機制的核心是構建文本對之間的偏好關系:將原始人類文本與其機器修改版本配對,通過這種配對可以在保持內容一致的同時突出風格差異。

圖片

圖3  LLM風格偏好優化的模擬過程

基于Bradley-Terry模型,定義偏好分布:

圖片

其中,圖片表示偏好機器修改文本而非人類文本的概率,這個概率隨著獎勵差值圖片的增加而增長。為了實現這一目標,獎勵函數被定義為:

圖片

這里的圖片代表參考模型(通常是圖片的初始狀態)。

通過這種獎勵函數的設計,我們用策略模型而非獎勵模型來表達偏好數據的概率。對于一個包含內容等價圖片對的訓練數據集D,優化目標可以表示為:

圖片

通過優化這個目標函數,模型圖片能夠逐步調整以偏好機器修改文本的風格特征。如圖3(a)所示,這種調整使得模型對機器風格特征(如「delve」這樣的詞)表現出更強的偏好。

最終優化后的模型記為圖片,代表了一個與機器風格高度對齊的評分模型。

基于風格概率曲線的檢測

在風格對齊的基礎上,研究人員引入風格條件概率曲線(styleconditional probability curvature, Style-CPC)作為最終的檢測機制:

圖片

通過這種度量,能夠有效量化文本樣本與機器風格的偏離程度。如圖2對比所示,優化后的模型能夠顯著減少人類文本和機器修改文本分布的重疊,最終通過簡單的閾值策略實現準確檢測:

圖片

這種基于風格感知的檢測框架不僅提高了對機器修改文本的識別準確率,更為重要的是,它為解決高級語言模型輸出檢測這一愈發重要的問題提供了新的思路。

通過將注意力從內容轉向風格特征,該方法展現出較強的泛化能力,特別是在處理包含用戶提供內容的復雜場景時表現出明顯優勢。

實驗結果

在GPT系列模型上的檢測性能

圖片

在polish任務上,相比Fast-DetectGPT,ImBD在檢測GPT-3.5 [2] 和GPT-4o [3] 修訂的文本時分別提升了15.16%和19.68%的性能;相比有監督模型RoBERTa-large,ImBD在GPT-3.5和GPT-4o的文本檢測上分別提高了32.91%和47.06%的性能。在保持高檢測性能的同時,推理速度仍保持高效,每1000詞僅需0.72秒。

圖片

僅使用1000個樣本和5分鐘的SPO訓練,ImBD就達到0.9449的AUROC分數,超過了使用大規模數據訓練的商業檢測工具GPTZero [4] (0.9351)。

在開源模型上的檢測性能

圖片

在檢測Qwen2-7B [5] 、Llama-3 [6] 、Mixtral-7B [7] 和Deepseek-7B [8] 四個開源模型修改的文本時,ImBD方法在XSum、SQuAD和WritingPrompts三個數據集上的平均AUROC達到0.9550,顯著優于Fast-DetectGPT的0.8261。

不同任務場景下的檢測魯棒性評估

圖片

ImBD方法在rewrite(0.8739)、expand(0.9758)、polish(0.9707)和generate(0.9996)四個任務上全面超越現有方法,平均性能比Fast-DetectGPT提升22.12%,證明了其在不同任務和用戶指令下的穩健性。

消融實驗

圖片

與未使用模仿策略的基線模型相比,采用SPO優化的ImBD方法在GPT-3.5和GPT-4o的文本檢測上AUROC分別提升了16%和20%;相比使用3倍訓練數據的SFT(Supervised Fine-Tuning)方法,ImBD的AUROC在GPT-3.5和GPT-4o上分別高出30%和24%。

文本長度敏感性研究

圖片

當文本長度從30詞增加到180詞時,ImBD方法始終保持領先優勢,且隨著文本長度增加檢測準確率穩步提升,展現出卓越的長文本處理能力。

多語言檢測能力評估

圖片

ImBD在多語言文本檢測中展示出優異的泛化能力,在西班牙語、葡萄牙語和中文的檢測中分別達到0.8487、0.8214和0.8792的AUROC分數,全面超越Fast-DetectGPT等基線方法,且在部分基線方法(如DNA-GPT [9] )失效的中文測試中仍保持穩定性能。

總結

這項工作提出了「模仿后檢測」(Imitate Before Detect)范式來檢測機器修改的文本,其核心是學習模仿LLM的寫作風格。

具體而言,論文提出了風格偏好優化方法來使檢測器對齊機器寫作風格,并利用基于風格的條件概率曲率來量化對數概率差異,從而實現有效檢測。通過廣泛的評估實驗,ImBD方法相比現有最先進的方法展現出顯著的性能提升。

作者簡介

論文的主要研究者來自復旦大學、華南理工大學、武漢大學、Fenz.AI以及UCSD、UIUC等機構。

圖片

論文一作陳家棋,復旦大學碩士生,斯坦福大學訪問學生學者。主要研究領域為計算機視覺和智能體。

圖片

李祖超,現任武漢大學計算機學院副研究員,在上海交通大學完成博士學位,曾在日本國立信息通信技術研究所(NICT)擔任特別技術研究員。

圖片

張捷,現任復旦大學類腦智能科學與技術研究院研究員,博士生導師。2008年于香港理工大學獲博士學位。曾獲“香港青年科學家獎”提名獎。為牛津大學“系統建模分析與預測”實驗室榮譽成員。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-19 11:28:00

2025-02-26 16:55:27

2021-03-03 15:34:57

人工智能機器學習技術

2025-04-28 12:28:27

2020-09-02 10:10:37

AI 數據人工智能

2025-02-25 10:04:10

2009-06-01 13:32:18

2025-02-26 16:57:37

2025-02-25 09:30:00

2020-12-02 10:05:26

AI 數據人工智能

2025-05-09 08:19:00

2021-12-01 15:16:32

自然語言神經網絡人工智能

2023-04-18 16:14:59

2025-06-17 02:25:00

工業異常檢測

2025-01-06 08:30:00

3D模型數據

2021-01-25 09:52:02

計算機互聯網 技術

2024-12-27 13:30:00

2025-03-04 09:10:44

2017-05-15 21:20:36

2024-08-14 14:30:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品一区二区三区蜜桃久 | 亚洲97 | 国产精品1区2区3区 欧美 中文字幕 | 蜜桃一区| 国产不卡一区 | 日韩精品久久久久久 | 久久国产成人精品国产成人亚洲 | 在线观看国产视频 | 成人欧美一区二区 | 欧美久久久久久久久中文字幕 | 成人久久网 | 九色91视频 | 欧美亚洲另类在线 | 欧美高清视频一区 | 高清人人天天夜夜曰狠狠狠狠 | 精品视频一区二区三区在线观看 | 成年人网站免费视频 | 久久久久亚洲精品中文字幕 | 国产福利久久 | 亚洲精品一区二三区不卡 | 色秀网站| 北条麻妃视频在线观看 | 99精品一级欧美片免费播放 | 欧美精品久久久久久久久久 | 亚洲精品一区二区三区 | 日韩中文字幕在线观看 | 精品国产免费人成在线观看 | 精品国产一区二区三区性色av | 亚洲视频在线免费观看 | 国产999精品久久久 精品三级在线观看 | 99热播精品 | 日韩av在线免费 | 日本亚洲一区二区 | 日韩午夜一区二区三区 | 免费午夜剧场 | 毛片视频免费观看 | 午夜影院网站 | 欧美久久视频 | 91精品亚洲 | 狠狠干天天干 | 日本精品视频 |