成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4「榮升」AI頂會同行評審專家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%評審是ChatGPT生成

人工智能 新聞
斯坦福的一篇案例研究表示,提交給AI會議的同行評審文本中,有6.5%到16.9%可能是由LLM大幅修改的,而這些趨勢可能在個體級別上難以察覺。

LLM在飛速進步的同時,人類也越來越難以區分LLM生成的文本與人工編寫的內容,甚至分辨能力與隨機器不相上下。

這加大了未經證實的生成文本可以偽裝成權威、基于證據的寫作的風險。

盡管在個例上難以察覺,但由于LLM的輸出趨于一致性,這種趨勢可能會放大語料庫級別的偏見。

基于這一點,一支來自斯坦福的團隊提出一種方法,以此來對包含不確定量的AI生成文本的真實世界數據集進行可比較的評估,并在AI會議的同行評審文本中驗證。

論文地址:https://arxiv.org/abs/2403.07183

AI會議的同行評審可能是AI?

同行評審是一種學術論文發表前的質量評估機制。

這些同行評審者通常具有相關領域的專業知識,他們會對論文的原創性、方法學、數據分析、結果解釋等進行評價,以確保論文的科學性和可信度。

斯坦福團隊研究的AI會議包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023,他們的研究發生在ChatGPT發布之后,實驗觀察估計LLM可能會顯著修改或生成的大語料庫中的文本比例。

結果顯示,有6.5%到16.9%可能是由LLM大幅修改的,即超出了拼寫檢查或微小寫作更新的范圍。

在下圖中,可以看到ICLR 2024同行評審中,某些形容詞的頻率發生了顯著變化,例如「值得稱贊的」、「細致的」和「復雜的」,它們在出現在句子中的概率分別增加了9.8倍、34.7倍和11.2倍。而這些詞大概率是由人工智能生成的。

同時研究還發現,在報告較低自信度、接近截稿時間以及不太可能回應作者反駁的評論中,LLM生成文本的估計比例較高。

最大似然讓LLM現形

因為LLM檢測器的性能不穩定,所以比起嘗試對語料庫中的每個文檔進行分類并計算總數,研究人員采用了最大似然的方法。

研究方法主要分成四個步驟:

1. 收集(人類)作者的寫作指導——在這個情況下是同行評審指導。將這些指導作為提示輸入到一個LLM中,生成相應的AI生成文檔的語料庫。

2. 使用人類和AI文檔語料庫,估算參考標記使用分布P和Q。

3. 在已知正確比例的AI生成文檔的合成目標語料庫上驗證方法的性能。

4. 基于對P和Q的這些估計,使用最大似然法估算目標語料庫中AI生成或修改文檔的比例α。

上圖對方法進行了流程可視化。

研究人員首先生成一個具有已知科學家或AI作者身份的文檔語料庫。利用這些歷史數據,我們可以估算科學家撰寫的文本和AI文本的分布P和Q,并驗證我們方法在留存數據上的性能。最后,使用估算的P和Q來估算目標語料庫中 AI 生成文本的比例。

在驗證集中,該方法在LLM生成反饋比例方面表現出高精度,預測誤差不到2.4%。同時,團隊對魯棒性也進行了驗證。

另外,一位審稿人可能會分兩個不同階段起草他們的審稿意見:首先,在閱讀論文時創建審稿的簡要大綱,然后使用LLM擴展這個大綱以形成詳細、全面的審稿意見。

在這種場景的驗證中,算法仍舊表現出色,能夠檢測到LLM用于大幅擴展由人提供的審稿大綱的情況。

實驗結果中還發現了什么

首先,團隊將AI會議的同行評審和Nature Portfolio期刊的α進行了比較。

與AI會議相反,Nature Portfolio期刊在ChatGPT發布后沒有顯示出估計α值的顯著增加,ChatGPT發布前后的α估計值仍在α = 0驗證實驗的誤差范圍內。

這種一致性表明,在與機器學習專業領域相比,廣泛的科學學科對AI工具的反應有明顯的不同。

除了發現同行評審文本中,有6.5%到16.9%來自于LLM的手筆之外,該研究還發現了一些有意思的用戶行為,在四個AI會議里保持一致:

1. 截至日期效應:在審稿截止日期前3天內提交的評審往往更傾向于用GPT

2. 參考文獻效應:包含「et al.」一詞的評審,即有學術引用的評審,更不會用GPT

3. 回復率降低效應:審稿討論期間,審稿人回復數量越多,評審更不會用GPT

4. 同質化效應:與同論文其他審稿意見越相似的評審,越可能用GPT

5. 低置信度效應:自評置信度在5分制度中為2分或以下的評審與較高置信度(3分或以上)的評審相比,更可能用了GPT

盡管這項研究存在一定的局限性,比如只涉及了四個會議、僅使用了GPT-4來生成AI文本,并且可能存在其他誤差來源,比如由于主題和審稿人的變化而導致的模型時間分布的偏差。

但是,研究的結論啟示了LLM可能對科學界產生的潛在影響,這有助于激發進一步的社會分析和思考。希望這些研究結果能夠促進對于LLM在未來信息生態系統中應該如何使用以及可能帶來的影響的深入探討,從而推動出臺更加明智的政策決策。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-02 08:45:08

ChatGPTAI會議人工智能

2023-10-06 12:48:43

AI論文

2024-09-20 17:41:07

2025-01-17 10:26:19

模型開發ChatGPT

2023-03-15 10:35:16

GPTAI

2023-06-05 15:44:15

GPT-4AI

2023-09-21 12:31:54

AI數據

2023-10-17 13:33:00

AI數據

2023-12-26 14:56:59

模型訓練

2017-11-28 14:18:29

2023-02-12 14:00:52

ChatGPTAI人類

2023-07-21 12:55:07

2024-01-29 12:49:00

AI模型

2023-02-14 09:45:11

模型測試

2019-12-16 14:33:01

AI人工智能斯坦福

2024-09-02 09:25:00

AI研究

2024-12-25 20:01:13

2023-11-29 14:53:00

AI數據

2023-06-15 14:00:00

研究模型

2023-07-21 14:28:54

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精国产品一区二区三区四季综 | 亚洲精品自在在线观看 | 日韩精品久久一区 | 狠狠色综合欧美激情 | 久在线 | 麻豆精品久久 | 国产精品欧美精品 | 成人精品在线观看 | 亚洲欧美日韩成人在线 | av在线播放不卡 | 成人亚洲 | 6080亚洲精品一区二区 | 日本午夜精品一区二区三区 | 浴室洗澡偷拍一区二区 | 欧美极品在线 | 伊人欧美视频 | 黄色一级大片在线免费看产 | 在线看一区二区三区 | 偷拍自拍网站 | 成人免费观看网站 | 日韩第一页 | www精品美女久久久tv | 99精品国产一区二区三区 | 欧美成人精品一区二区男人看 | 黄色一级片aaa | 国产极品粉嫩美女呻吟在线看人 | 国产在线一区二区三区 | 九九国产在线观看 | 中文字幕亚洲区一区二 | 一级做a爰片久久毛片免费看 | 精品久久久久久久 | 国产日韩欧美一区二区 | 黑人巨大精品欧美一区二区一视频 | 午夜av毛片| 超碰人人在线 | 欧美日韩中文国产一区发布 | 在线看免费的a | 在线看片网站 | 久久精品欧美一区二区三区不卡 | 国产一区二区三区四区在线观看 | 成人国产网站 |