成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT 與 AI 會(huì)議同行評(píng)審:大規(guī)模監(jiān)測(cè) AI

原創(chuàng)
人工智能
今年4月,一篇題為“Monitoring AI-Modified Content at Scale:A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”的論文引起了廣泛關(guān)注。

編輯 | 言征

作者 | 智能交互引擎

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

如何監(jiān)測(cè)AI生成的內(nèi)容?一篇文章中AI生成的篇幅占比究竟有多少?

今年4月,一篇題為“Monitoring AI-Modified Content at Scale:A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”的論文引起了廣泛關(guān)注。

該論文探討了ChatGPT對(duì)AI會(huì)議同行評(píng)審的影響,并提出了一種估計(jì)大型語(yǔ)料庫(kù)中被AI大幅修改或生成的文本比例的方法。

一、研究背景

隨著大型語(yǔ)言模型(LLM)的廣泛應(yīng)用,如在教育、科學(xué)和全球媒體等領(lǐng)域,準(zhǔn)確測(cè)量其使用規(guī)模以及評(píng)估生成文本對(duì)信息生態(tài)系統(tǒng)的影響變得愈發(fā)重要。然而,目前很難區(qū)分LLM生成的文本和人類撰寫(xiě)的內(nèi)容,這給科學(xué)研究帶來(lái)了挑戰(zhàn),例如ChatGPT生成的醫(yī)學(xué)摘要可能繞過(guò)AI檢測(cè)器和專家,以及媒體中出現(xiàn)的不可靠AI生成的新聞網(wǎng)站可能誤導(dǎo)消費(fèi)者。

二、相關(guān)工作

1、Zero-shotLLM檢測(cè):許多LLM檢測(cè)方法旨在檢測(cè)單個(gè)文檔中AI生成的文本,如利用語(yǔ)言模型的熵、對(duì)數(shù)概率分?jǐn)?shù)、困惑度和不常見(jiàn)n-gram頻率等指標(biāo)來(lái)區(qū)分人類和機(jī)器文本。但這些方法在實(shí)際應(yīng)用中效果有限,且當(dāng)許多商業(yè)LLM不開(kāi)放源代碼時(shí),這些方法往往依賴于假設(shè)與閉源LLM機(jī)制相似的代理LLM,這引入了一定的局限性。

2、Training-basedLLM檢測(cè):通過(guò)微調(diào)預(yù)訓(xùn)練模型來(lái)區(qū)分人類和AI生成的文本,但這種方法存在過(guò)擬合訓(xùn)練數(shù)據(jù)和語(yǔ)言模型的傾向,且許多分類器在對(duì)抗侵入面前表現(xiàn)脆弱,對(duì)非主導(dǎo)語(yǔ)言變體的作者存在偏見(jiàn)。

3、LLM水印:通過(guò)在文本中嵌入獨(dú)特的、可算法檢測(cè)的信號(hào)(水印)來(lái)檢測(cè)AI生成的文本,但水印的嵌入需要模型或服務(wù)所有者的參與,且可能會(huì)降低文本生成質(zhì)量和連貫性。

三、研究方法

1、記號(hào)與問(wèn)題陳述:用表示文檔或句子,表示令牌,表示語(yǔ)料庫(kù),表示詞匯表。假設(shè)目標(biāo)語(yǔ)料庫(kù)中的文檔是從科學(xué)家編寫(xiě)的文檔分布和AI生成的文檔分布的混合分布中生成的,目標(biāo)是估計(jì)AI生成的文檔的比例。

2、統(tǒng)計(jì)估計(jì)方法概述:采用最大似然估計(jì)(MLE)方法,包括訓(xùn)練數(shù)據(jù)生成、文檔概率分布估計(jì)和計(jì)算AI生成或修改的文本的最終估計(jì)比例。具體步驟為收集原始語(yǔ)料庫(kù)的寫(xiě)作指令,用LLM生成AI文檔,估計(jì)參考令牌使用分布和,在合成目標(biāo)語(yǔ)料庫(kù)上驗(yàn)證方法性能,最后基于估計(jì)的和,使用MLE估計(jì)目標(biāo)語(yǔ)料庫(kù)中AI生成或修改的文檔的比例。

3、MLE框架:給定從混合分布中獨(dú)立抽取的文檔集合,通過(guò)對(duì)數(shù)似然函數(shù)來(lái)估計(jì)。

4、生成訓(xùn)練數(shù)據(jù):需要訪問(wèn)歷史數(shù)據(jù)來(lái)估計(jì)和,具體為已知的僅包含人類撰寫(xiě)文本的評(píng)論集合以及相關(guān)的評(píng)論問(wèn)題和被評(píng)審的論文。將評(píng)審指令提示和與人類語(yǔ)料庫(kù)中評(píng)論相關(guān)的論文輸入AI語(yǔ)言工具(如ChatGPT),生成AI語(yǔ)料庫(kù)。

5、估計(jì)和從數(shù)據(jù):將每個(gè)文檔表示為令牌出現(xiàn)的列表(即一個(gè)集合),而不是令牌計(jì)數(shù)的列表。通過(guò)計(jì)算令牌在文檔中出現(xiàn)的文檔數(shù)量占總文檔數(shù)量的比例來(lái)估計(jì)人類文檔分布的出現(xiàn)概率,類似地估計(jì),然后通過(guò)和類似的公式估計(jì)和。

6、驗(yàn)證方法:將人類和AI語(yǔ)料庫(kù)劃分為兩個(gè)不相交的部分,80%用于訓(xùn)練,20%用于驗(yàn)證。選擇一系列可行的值,從AI驗(yàn)證語(yǔ)料庫(kù)和人類驗(yàn)證語(yǔ)料庫(kù)中抽樣生成目標(biāo)語(yǔ)料庫(kù),計(jì)算目標(biāo)語(yǔ)料庫(kù)的MLE估計(jì),如果,則說(shuō)明系統(tǒng)工作正常。

圖片圖片

四、實(shí)驗(yàn)結(jié)果

1、在合成數(shù)據(jù)上的驗(yàn)證:算法在識(shí)別混合驗(yàn)證集中LLM生成的文本比例方面具有較高的準(zhǔn)確性,預(yù)測(cè)誤差在人口水平上小于1.8%。

2、與基于實(shí)例的檢測(cè)方法比較:與BERT分類器基線和其他兩個(gè)最近發(fā)布的先進(jìn)AI文本檢測(cè)方法相比,該方法減少了內(nèi)部分布估計(jì)誤差3.4倍,外部分布估計(jì)誤差4.6倍,并且在推理時(shí)間上計(jì)算效率更高,超過(guò)1000萬(wàn)倍(即7個(gè)數(shù)量級(jí))。

3、對(duì)真實(shí)評(píng)論的估計(jì):ML會(huì)議的評(píng)論中,在ChatGPT發(fā)布后,AI生成的句子顯著增加,但Nature期刊的評(píng)論中沒(méi)有明顯證據(jù)表明使用了AI。例如,ICLR會(huì)議中,估計(jì)的從1.6%增加到10.6%,NeurIPS從1.9%增加到9.1%,CoRL從2.4%增加到6.5%,而EMNLP會(huì)議的估計(jì)約為16.9%。

4、對(duì)校對(duì)的魯棒性:將方法應(yīng)用于僅由ChatGPT進(jìn)行校對(duì)(非實(shí)質(zhì)性編輯)的同行評(píng)審,發(fā)現(xiàn)估計(jì)的雖有增加,但幅度遠(yuǎn)小于在真實(shí)評(píng)審語(yǔ)料庫(kù)中的效果。

5、使用LLM大幅擴(kuò)展評(píng)論大綱:通過(guò)模擬評(píng)審者先創(chuàng)建簡(jiǎn)要大綱,然后使用LLM擴(kuò)展大綱的過(guò)程,發(fā)現(xiàn)算法能夠檢測(cè)到這種LLM的使用情況,估計(jì)的與實(shí)際情況相符。

6、與估計(jì)LLM使用相關(guān)的因素:

(1)截止日期效應(yīng):在截止日期前3天或更少時(shí)間提交的評(píng)論中,估計(jì)的有小幅但一致的增加,表明評(píng)審者可能會(huì)在臨近截止日期時(shí)依賴LLM來(lái)節(jié)省時(shí)間。

(2)參考效應(yīng):包含學(xué)術(shù)引用的評(píng)論中估計(jì)的較低,這表明LLM往往難以準(zhǔn)確生成包含引用的內(nèi)容,同時(shí)也說(shuō)明使用ChatGPT的人可能不太傾向于引用來(lái)源。

(3)低回復(fù)率效應(yīng):作者回復(fù)較少的評(píng)論中,估計(jì)的ChatGPT使用量較高,這可能是因?yàn)樵u(píng)審者使用LLM作為快速解決方案來(lái)避免額外的參與,或者是因?yàn)樵u(píng)審工作量增加導(dǎo)致學(xué)者依賴工具。

(4)同質(zhì)化效應(yīng):“趨同”(與其他評(píng)論相似)的評(píng)論往往具有更高的估計(jì),這表明LLM生成的文本可能導(dǎo)致反饋的同質(zhì)化,減少了語(yǔ)言和認(rèn)知的多樣性,可能會(huì)使學(xué)者失去接受來(lái)自多個(gè)獨(dú)立專家的多樣化反饋的機(jī)會(huì)。

(5)低信心效應(yīng):評(píng)審者信心低的評(píng)論與ChatGPT使用量的增加相關(guān),這可能是因?yàn)長(zhǎng)LM的融入使評(píng)審者對(duì)生成內(nèi)容的個(gè)人投入感或準(zhǔn)確性信心降低。

圖片圖片

五、討論與結(jié)論

該研究提出了一種估計(jì)大型語(yǔ)料庫(kù)中被AI修改或生成的文本比例的有效方法,并通過(guò)對(duì)AI會(huì)議和期刊評(píng)論的研究,揭示了ChatGPT對(duì)科學(xué)出版的潛在影響。盡管研究存在一定局限性,但為社會(huì)分析提供了有價(jià)值的視角,希望能促進(jìn)關(guān)于LLM在信息生態(tài)系統(tǒng)中使用程度和影響的建設(shè)性討論和政策決策。

以上就是對(duì)這篇論文的主要解讀,希望能對(duì)大家了解該研究有所幫助。如有不足之處,歡迎大家批評(píng)指正。

論文鏈接:https://arxiv.org/abs/2403.07183v1

原文鏈接:http://www.ekrvqnd.cn/aigc/2204.html

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.ekrvqnd.cn/aigc/

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2024-10-16 08:00:00

2019-01-07 05:51:34

AI人工智能高效流程

2020-02-10 08:00:38

AI 數(shù)據(jù)人工智能

2025-02-18 09:48:58

2024-03-25 07:15:00

AI模型

2024-10-29 14:44:33

2025-03-13 09:16:25

2024-04-02 08:45:08

ChatGPTAI會(huì)議人工智能

2018-10-19 12:16:06

開(kāi)源技術(shù) 數(shù)據(jù)

2020-10-19 08:32:04

AI機(jī)器人

2025-03-28 08:14:18

2024-11-06 15:34:51

2010-11-22 14:33:42

云網(wǎng)管服務(wù)器監(jiān)測(cè)

2023-05-06 08:23:36

ChatGPT自然語(yǔ)言技術(shù)

2023-05-08 06:24:53

2023-07-04 09:48:10

AI模型

2023-05-07 23:17:37

2023-03-14 16:31:27

ChatGPT人工智能聊天機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品久久久久久久久久 | 欧美日韩国产一区二区三区 | 欧美日韩理论 | 国产区精品| 羞羞的视频网站 | 久草热8精品视频在线观看 午夜伦4480yy私人影院 | av在线一区二区三区 | 国产在线一区二区三区 | 成人毛片视频在线播放 | 日韩a视频 | 午夜精品福利视频 | 毛片在线免费 | 婷婷色在线 | 中文字幕亚洲在线 | 日韩精品一区二区在线观看 | 亚洲国产精品一区二区久久 | 国产第一区二区 | 亚洲一区中文字幕 | 久久国产欧美日韩精品 | 亚洲九九精品 | 欧美在线一区二区三区 | 在线免费观看日本视频 | 国产精品一区二区av | 日韩视频专区 | 亚洲国产一区二区三区在线观看 | 天天天操 | 在线色网| 亚洲一区二区三区视频 | 麻豆久久久久 | 大陆一级毛片免费视频观看 | 欧美日韩在线观看视频网站 | 欧美天堂一区 | 国产免费人成xvideos视频 | 一区二区三区精品在线视频 | 黄色香蕉视频在线观看 | 久久精品国产久精国产 | 91精品国产乱码久久久久久 | 久久久久国产一区二区三区 | 亚洲精品一区二区网址 | 在线亚洲免费视频 | 国内av在线|