ICLR被曝巨大黑幕,評(píng)審和作者竟私下勾結(jié)?49.9%論文疑有AI審稿
由于規(guī)格高、論文多,頂會(huì)論文審稿過程的公平性和透明度,向來是業(yè)界關(guān)注和爭(zhēng)議的焦點(diǎn)。
本屆ICLR在放榜后就有人在Reddit上發(fā)帖,質(zhì)疑委員會(huì)接收了違反匿名政策的論文,且沒有在評(píng)審過程中遵守雙盲原則。
而且這種情況絕不是個(gè)例。ICLR官方發(fā)布的文章表示,關(guān)于審稿過程的問題已經(jīng)收到了7000多封意見書。
很快,隨著大會(huì)正式拉開帷幕,ICLR也親自下場(chǎng)表示,目前已經(jīng)針對(duì)這種「串通」行為展開了調(diào)查。
所謂Collusion(串通)就是,一些審稿人通過操縱投標(biāo)系統(tǒng)與特定作者匹配。
不僅如此,部分領(lǐng)域主席(AC)可能也通過類似的方式操作系統(tǒng)并指派同謀的審稿人。
然后,這些審稿人就會(huì)給出極高的評(píng)價(jià),從而提高論文被接收的可能性。
對(duì)此,ICLR表示:
- 目前已發(fā)現(xiàn)多起審稿人與作者之間的勾結(jié)行為,其中一些案例有直接證據(jù)。
- 這些行為均直接違反了道德守則。
- 道德委員會(huì)正審查,并評(píng)估可能的處罰。
AI輔助審稿
除此之外,關(guān)于評(píng)審委員會(huì)在審稿時(shí)能否使用AI工具的問題也一直飽受爭(zhēng)議。
相比其他頂會(huì),ICLR審稿較為獨(dú)特的一點(diǎn)在于,無論是否被接受,每篇論文的評(píng)分和評(píng)審意見都會(huì)被公開發(fā)布。
于是,來自洛桑聯(lián)邦理工學(xué)院的研究人員,就利用ICLR 2024的相關(guān)公開數(shù)據(jù),研究了用AI進(jìn)行輔助評(píng)審的情況。
這篇論文不僅揭示了評(píng)審過程中可能存在的大范圍使用AI輔助工具的情況,也采用對(duì)比分析的方法研究了這種行為對(duì)評(píng)審結(jié)果可能存在的影響。
論文地址:https://arxiv.org/abs/2405.02150
論文作者首先采用了一個(gè)商用的LLM檢測(cè)器GPTZero來評(píng)估所有的文字評(píng)審意見。GPTZero可以將給定文本分為「完全由人類生成」,「完全由AI生成」和「混合生成」三類,并給出相應(yīng)的置信度。
這篇研究中,如果GPTZero認(rèn)為「完全由人類生成」的置信度低于0.5,則被認(rèn)定為使用了AI輔助。結(jié)果顯示,AI輔助評(píng)審比想象中的更廣泛。
2024年評(píng)委們給出的28028條評(píng)審意見中至少有15.8%是由AI輔助生成的,全部接收文章中的49.9%收到了至少一條由GPTZero判定為AI輔助的評(píng)審意見。
基于GPTZero的檢測(cè)結(jié)果,論文繼續(xù)研究AI輔助生成的評(píng)論是否會(huì)對(duì)論文的評(píng)分和接受率產(chǎn)生影響。
文章包括三部分,第一部分分析AI參與審稿的范圍,第二、三部分研究AI輔助可能產(chǎn)生的影響
對(duì)于每篇既有AI輔助評(píng)審意見又有人類評(píng)審意見的論文,作者收集了這些等級(jí)制評(píng)分的結(jié)果(包含5個(gè)等級(jí):1分、3分、5分、6分、8分),并使用了比例賠付模型(proportional odds model)擬合估計(jì)AI輔助評(píng)審會(huì)打出更高分?jǐn)?shù)的可能性。
總體上,AI給論文的評(píng)分會(huì)高于人類。對(duì)于一篇給定的論文,AI評(píng)分有53.4%的可能性高于人類評(píng)分。
無論在哪個(gè)分?jǐn)?shù)區(qū)間,AI輔助評(píng)審打出的分?jǐn)?shù)相比人類都會(huì)更高
為了研究AI輔助的評(píng)審意見會(huì)如何影響論文入選結(jié)果,作者從全部論文中挑選了內(nèi)容相似的文章匹配成對(duì),其中一篇全部被判定為由人類評(píng)審,另一篇?jiǎng)t只含有一條AI輔助評(píng)審,且除去AI的給分后,審稿委員會(huì)為它們打出了完全相同的分?jǐn)?shù)。
通過以上標(biāo)準(zhǔn)篩選出5132個(gè)論文樣本后,作者對(duì)比了它們的接收情況從而分析AI輔助評(píng)分的影響。
總體而言,一條AI輔助的評(píng)分讓論文有3.1%的更高可能入選,而且對(duì)于評(píng)分徘徊在接收分?jǐn)?shù)線邊緣的論文,這個(gè)數(shù)字還會(huì)提升到4.9%。
評(píng)分在5~6分、處于接收線邊緣時(shí),AI評(píng)分會(huì)對(duì)論文入選有正面影響
近年來大語言模型的快速發(fā)展,尤其是ChatGPT誕生后,學(xué)術(shù)界就涌現(xiàn)出了對(duì)AI參與審稿過程的質(zhì)疑,自己工作都在「996」的教授們面對(duì)審稿的重?fù)?dān)很有可能讓大語言模型幫自己撰寫評(píng)審意見。
這篇論文探究了當(dāng)今頂會(huì)的審稿現(xiàn)狀,通過控制變量的方法追蹤并量化了因果關(guān)系,進(jìn)而揭示了AI輔助評(píng)審對(duì)論文接收結(jié)果可能產(chǎn)生的影響。
大語言模型的快速發(fā)展是否會(huì)威脅學(xué)術(shù)界長(zhǎng)久以來實(shí)行的同行評(píng)審制度,一直是期刊和論文的委員會(huì)所擔(dān)憂的。論文作者表示,這項(xiàng)研究的意義之一在于,用量化的證據(jù)坐實(shí)了這種負(fù)面影響。
由于論文投稿數(shù)量的激增以及發(fā)展得越來越快的文字生成工具,疲于審稿工作的委員們采用AI輔助工具似乎是不可避免的趨勢(shì)。
以ICLR為例,2023年的總投稿數(shù)僅為4955篇,今年就激增了將近一倍,達(dá)到7262篇,這無疑給會(huì)議的評(píng)審委員會(huì)帶來了很大的工作負(fù)擔(dān)。
論文的最后一部分誠(chéng)實(shí)地表達(dá)了作者的擔(dān)憂,認(rèn)為審稿過程的準(zhǔn)則和評(píng)價(jià)指標(biāo)需要跟隨大語言模型的發(fā)展一同進(jìn)化。
否則,任由AI放肆地將自己不成熟的價(jià)值觀投射到學(xué)術(shù)論文的篩選過程上,尤其是那些含有更多觀點(diǎn)和價(jià)值表述的論文,將會(huì)產(chǎn)生更嚴(yán)重的危機(jī)。
最后,作者還分享了他們基于GPTZero打造的檢測(cè)網(wǎng)站,只要輸入你的論文標(biāo)題,就能看到自己的ICLR論文是不是被「幸運(yùn)」地分配到了AI輔助評(píng)審。
測(cè)試地址:http://aireviewlottery.com