ICLR被曝巨大黑幕，評(píng)審和作者竟私下勾結(jié)？49.9%論文疑有AI審稿

作者：新智元 2024-05-09 11:24:20

正在召開的ICLR 2024會(huì)議上，成為關(guān)注熱點(diǎn)的不僅有耀眼的成果和學(xué)術(shù)明星，關(guān)于論文的審稿程序也掀起了一波討論。大會(huì)官方對(duì)網(wǎng)上熱議的「串通」行為做出了回應(yīng)，學(xué)界關(guān)心的「AI輔助審稿」問題也在ICLR 2024的背景下有了相關(guān)的研究進(jìn)展。

由于規(guī)格高、論文多，頂會(huì)論文審稿過程的公平性和透明度，向來是業(yè)界關(guān)注和爭(zhēng)議的焦點(diǎn)。

本屆ICLR在放榜后就有人在Reddit上發(fā)帖，質(zhì)疑委員會(huì)接收了違反匿名政策的論文，且沒有在評(píng)審過程中遵守雙盲原則。

而且這種情況絕不是個(gè)例。ICLR官方發(fā)布的文章表示，關(guān)于審稿過程的問題已經(jīng)收到了7000多封意見書。

很快，隨著大會(huì)正式拉開帷幕，ICLR也親自下場(chǎng)表示，目前已經(jīng)針對(duì)這種「串通」行為展開了調(diào)查。

所謂Collusion（串通）就是，一些審稿人通過操縱投標(biāo)系統(tǒng)與特定作者匹配。

不僅如此，部分領(lǐng)域主席（AC）可能也通過類似的方式操作系統(tǒng)并指派同謀的審稿人。

然后，這些審稿人就會(huì)給出極高的評(píng)價(jià)，從而提高論文被接收的可能性。

對(duì)此，ICLR表示：

- 目前已發(fā)現(xiàn)多起審稿人與作者之間的勾結(jié)行為，其中一些案例有直接證據(jù)。

- 這些行為均直接違反了道德守則。

- 道德委員會(huì)正審查，并評(píng)估可能的處罰。

AI輔助審稿

除此之外，關(guān)于評(píng)審委員會(huì)在審稿時(shí)能否使用AI工具的問題也一直飽受爭(zhēng)議。

相比其他頂會(huì)，ICLR審稿較為獨(dú)特的一點(diǎn)在于，無論是否被接受，每篇論文的評(píng)分和評(píng)審意見都會(huì)被公開發(fā)布。

于是，來自洛桑聯(lián)邦理工學(xué)院的研究人員，就利用ICLR 2024的相關(guān)公開數(shù)據(jù)，研究了用AI進(jìn)行輔助評(píng)審的情況。

這篇論文不僅揭示了評(píng)審過程中可能存在的大范圍使用AI輔助工具的情況，也采用對(duì)比分析的方法研究了這種行為對(duì)評(píng)審結(jié)果可能存在的影響。

論文地址：https://arxiv.org/abs/2405.02150

論文作者首先采用了一個(gè)商用的LLM檢測(cè)器GPTZero來評(píng)估所有的文字評(píng)審意見。GPTZero可以將給定文本分為「完全由人類生成」，「完全由AI生成」和「混合生成」三類，并給出相應(yīng)的置信度。

這篇研究中，如果GPTZero認(rèn)為「完全由人類生成」的置信度低于0.5，則被認(rèn)定為使用了AI輔助。結(jié)果顯示，AI輔助評(píng)審比想象中的更廣泛。

2024年評(píng)委們給出的28028條評(píng)審意見中至少有15.8%是由AI輔助生成的，全部接收文章中的49.9%收到了至少一條由GPTZero判定為AI輔助的評(píng)審意見。

基于GPTZero的檢測(cè)結(jié)果，論文繼續(xù)研究AI輔助生成的評(píng)論是否會(huì)對(duì)論文的評(píng)分和接受率產(chǎn)生影響。

文章包括三部分，第一部分分析AI參與審稿的范圍，第二、三部分研究AI輔助可能產(chǎn)生的影響

對(duì)于每篇既有AI輔助評(píng)審意見又有人類評(píng)審意見的論文，作者收集了這些等級(jí)制評(píng)分的結(jié)果（包含5個(gè)等級(jí)：1分、3分、5分、6分、8分），并使用了比例賠付模型（proportional odds model）擬合估計(jì)AI輔助評(píng)審會(huì)打出更高分?jǐn)?shù)的可能性。

總體上，AI給論文的評(píng)分會(huì)高于人類。對(duì)于一篇給定的論文，AI評(píng)分有53.4%的可能性高于人類評(píng)分。

無論在哪個(gè)分?jǐn)?shù)區(qū)間，AI輔助評(píng)審打出的分?jǐn)?shù)相比人類都會(huì)更高

為了研究AI輔助的評(píng)審意見會(huì)如何影響論文入選結(jié)果，作者從全部論文中挑選了內(nèi)容相似的文章匹配成對(duì)，其中一篇全部被判定為由人類評(píng)審，另一篇?jiǎng)t只含有一條AI輔助評(píng)審，且除去AI的給分后，審稿委員會(huì)為它們打出了完全相同的分?jǐn)?shù)。

通過以上標(biāo)準(zhǔn)篩選出5132個(gè)論文樣本后，作者對(duì)比了它們的接收情況從而分析AI輔助評(píng)分的影響。

總體而言，一條AI輔助的評(píng)分讓論文有3.1%的更高可能入選，而且對(duì)于評(píng)分徘徊在接收分?jǐn)?shù)線邊緣的論文，這個(gè)數(shù)字還會(huì)提升到4.9%。

評(píng)分在5～6分、處于接收線邊緣時(shí)，AI評(píng)分會(huì)對(duì)論文入選有正面影響

近年來大語言模型的快速發(fā)展，尤其是ChatGPT誕生后，學(xué)術(shù)界就涌現(xiàn)出了對(duì)AI參與審稿過程的質(zhì)疑，自己工作都在「996」的教授們面對(duì)審稿的重?fù)?dān)很有可能讓大語言模型幫自己撰寫評(píng)審意見。

這篇論文探究了當(dāng)今頂會(huì)的審稿現(xiàn)狀，通過控制變量的方法追蹤并量化了因果關(guān)系，進(jìn)而揭示了AI輔助評(píng)審對(duì)論文接收結(jié)果可能產(chǎn)生的影響。

大語言模型的快速發(fā)展是否會(huì)威脅學(xué)術(shù)界長(zhǎng)久以來實(shí)行的同行評(píng)審制度，一直是期刊和論文的委員會(huì)所擔(dān)憂的。論文作者表示，這項(xiàng)研究的意義之一在于，用量化的證據(jù)坐實(shí)了這種負(fù)面影響。

由于論文投稿數(shù)量的激增以及發(fā)展得越來越快的文字生成工具，疲于審稿工作的委員們采用AI輔助工具似乎是不可避免的趨勢(shì)。

以ICLR為例，2023年的總投稿數(shù)僅為4955篇，今年就激增了將近一倍，達(dá)到7262篇，這無疑給會(huì)議的評(píng)審委員會(huì)帶來了很大的工作負(fù)擔(dān)。

論文的最后一部分誠(chéng)實(shí)地表達(dá)了作者的擔(dān)憂，認(rèn)為審稿過程的準(zhǔn)則和評(píng)價(jià)指標(biāo)需要跟隨大語言模型的發(fā)展一同進(jìn)化。

否則，任由AI放肆地將自己不成熟的價(jià)值觀投射到學(xué)術(shù)論文的篩選過程上，尤其是那些含有更多觀點(diǎn)和價(jià)值表述的論文，將會(huì)產(chǎn)生更嚴(yán)重的危機(jī)。

最后，作者還分享了他們基于GPTZero打造的檢測(cè)網(wǎng)站，只要輸入你的論文標(biāo)題，就能看到自己的ICLR論文是不是被「幸運(yùn)」地分配到了AI輔助評(píng)審。

測(cè)試地址：http://aireviewlottery.com

責(zé)任編輯：張燕妮來源：新智元

AI 論文

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR被曝巨大黑幕，評(píng)審和作者竟私下勾結(jié)？49.9%論文疑有AI審稿

AI輔助審稿