成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4一眼看穿論文會(huì)不會(huì)撤稿:7000篇實(shí)測(cè)準(zhǔn)確率高達(dá)95%|人大浙大

人工智能 新聞
來(lái)自人大與浙大學(xué)者團(tuán)隊(duì)的研究者們把涉及數(shù)千篇SCI/SSCI的期刊論文的10000多條推文喂給了GPT-4,讓它根據(jù)推文回答“這篇論文是否有可能被撤稿”,然后和人類預(yù)測(cè)的結(jié)果相比較。

把論文丟給GPT-4進(jìn)行撤稿預(yù)測(cè),和人類審稿人給出的結(jié)果相似性近95%!

具體來(lái)說(shuō),來(lái)自人大與浙大學(xué)者團(tuán)隊(duì)的研究者們把涉及數(shù)千篇SCI/SSCI的期刊論文的10000多條推文喂給了GPT-4,讓它根據(jù)推文回答“這篇論文是否有可能被撤稿”,然后和人類預(yù)測(cè)的結(jié)果相比較。

結(jié)果,GPT-4幾乎完美地勝任了這項(xiàng)工作。

圖片

也就是說(shuō),雖然近期偶有新聞冒出,有人直接把ChatGPT等大模型的生成內(nèi)容復(fù)制進(jìn)論文正文,進(jìn)而引發(fā)一系列學(xué)術(shù)不端問(wèn)題。

但,大模型可能引發(fā)學(xué)術(shù)不端,也有辦法維護(hù)科研誠(chéng)信。

論文作者Er-Te Zheng總結(jié)道:

AI能否應(yīng)用于學(xué)術(shù)研究,這一問(wèn)題的關(guān)鍵,在于AI工具如何被人類所使用。

圖片

推文能預(yù)測(cè)論文撤稿

作為讓ChatGPT預(yù)測(cè)撤稿與否的基礎(chǔ),研究團(tuán)隊(duì)首先探索了“推文本身能否預(yù)測(cè)撤稿”。

現(xiàn)實(shí)情況中,許多有問(wèn)題的論文都是在推特等社交平臺(tái)上被曝光,引發(fā)關(guān)注,繼而被撤稿——比如前段時(shí)間爭(zhēng)議不小的用AI繪制小鼠插圖的論文。

圖片

在探索推文本身能否預(yù)測(cè)撤稿的過(guò)程中,團(tuán)隊(duì)搜集了一組包含3505篇撤稿論文的數(shù)據(jù)集,并采用粗略精確匹配方法獲得的具有相似特征的3505篇未撤稿論文。

這些特征包括發(fā)表期刊、發(fā)表年份、作者數(shù)量和推文數(shù)量。

上述7010篇論文的推文數(shù)據(jù)通過(guò)推特API收集,數(shù)據(jù)內(nèi)容包括推文發(fā)布日期和文本內(nèi)容。

篩選出在論文撤稿前發(fā)布的推文后,研究團(tuán)隊(duì)最終共搜集到8367條涉及撤稿論文的英文推文和6180條涉及未撤稿論文的英文推文。

圖片

研究把推文分為訓(xùn)練集和測(cè)試集。

訓(xùn)練集用來(lái)訓(xùn)練模型,然后在測(cè)試集上驗(yàn)證人工預(yù)測(cè)、關(guān)鍵詞方法、機(jī)器學(xué)習(xí)模型和ChatGPT的預(yù)測(cè)結(jié)果情況。

人工預(yù)測(cè)結(jié)果(研究者根據(jù)推文預(yù)測(cè)論文撤稿情況)是研究使用的主要基準(zhǔn)之一,用以衡量模型與人工方法的一致性情況。

人工預(yù)測(cè)結(jié)果顯示,人類若認(rèn)為推文暗示論文存在問(wèn)題,則推文涉及的這篇論文有高達(dá)約93%的幾率會(huì)被撤稿(精確率≈93%),這說(shuō)明部分推文的確能夠預(yù)測(cè)論文撤稿。

不過(guò),像這樣能通過(guò)推文被人工預(yù)測(cè)出撤稿的論文的總體占比不高,約占所有撤稿論文的16%(召回率≈16%)。

因此,盡管只有一小部分撤稿論文的相關(guān)推文在論文撤稿前含有了可識(shí)別的問(wèn)題信號(hào),但這些信號(hào)確實(shí)存在。

研究者觀察到,能夠有效預(yù)測(cè)論文撤稿的批評(píng)性推文有兩種類型:

  • 第一種直接突出論文中的錯(cuò)誤或?qū)W術(shù)不端行為;
  • 第二種使用批評(píng)或諷刺的方式來(lái)突出論文的質(zhì)量存疑。

這些推文能夠促使期刊對(duì)論文進(jìn)行調(diào)查,如果調(diào)查證實(shí)了推文中提到的問(wèn)題的存在和嚴(yán)重性,論文隨后可能會(huì)被撤稿。

在這種情況下,批評(píng)性推文可以作為撤稿論文的催化劑,強(qiáng)調(diào)了將其納入研究誠(chéng)信的早期預(yù)警系統(tǒng)的價(jià)值。

ChatGPT預(yù)測(cè)結(jié)果95%近似人類

既然發(fā)現(xiàn)推文具有預(yù)測(cè)論文撤稿的潛力,研究進(jìn)一步探索了關(guān)鍵詞方法、機(jī)器學(xué)習(xí)模型和ChatGPT在根據(jù)推文來(lái)預(yù)測(cè)論文撤稿方面的潛力,將各模型的預(yù)測(cè)結(jié)果與人工預(yù)測(cè)結(jié)果進(jìn)行比較。

圖片

研究表明,GPT-4的總體預(yù)測(cè)結(jié)果(包含撤稿預(yù)測(cè)和非撤稿預(yù)測(cè))與人工預(yù)測(cè)結(jié)果的一致性最高,約95%。

其次是GPT-3.5和SVM模型,其一致性超過(guò)80%。

而關(guān)鍵詞方法與其他機(jī)器學(xué)習(xí)模型的一致性則在47%-64%之間,預(yù)測(cè)效果一般。

精確率方面,同樣是GPT-4的精確率最高:

GPT-4預(yù)測(cè)會(huì)撤稿的論文中,近70%的在人工預(yù)測(cè)中同樣會(huì)撤稿;而其他模型的預(yù)測(cè)精確率均遠(yuǎn)低于GPT-4。

圖片

上圖進(jìn)一步顯示了不同模型預(yù)測(cè)結(jié)果與人工預(yù)測(cè)結(jié)果的比較。

關(guān)鍵詞方法和三種機(jī)器學(xué)習(xí)模型(LR、RF和NB)將大量人工無(wú)法判定為撤稿的論文歸為撤稿(過(guò)擬合率高)。

相比而言,GPT-4的預(yù)測(cè)結(jié)果最接近于人工預(yù)測(cè)的結(jié)果

絕大部分GPT-4預(yù)測(cè)為撤稿的論文,人工預(yù)測(cè)也為撤稿,絕大部分GPT-4預(yù)測(cè)為非撤稿的論文,人工預(yù)測(cè)同樣為非撤稿。

有請(qǐng)實(shí)例

與其他方法相比,ChatGPT還有一個(gè)重要的優(yōu)勢(shì)——能夠?yàn)槠漕A(yù)測(cè)提供理由,而其他方法則無(wú)法詳細(xì)解釋其決策。

例如,從樣本論文中可以看出,ChatGPT對(duì)推文有深刻的理解,并能準(zhǔn)確提取可能預(yù)測(cè)論文撤稿的信息,為使用推文評(píng)估論文是否存在潛在問(wèn)題提供了寶貴的幫助。

舉個(gè)圖片

圖片

然而,也要注意到ChatGPT有時(shí)存在“幻覺(jué)”問(wèn)題。

也就是說(shuō),ChatGPT可能會(huì)產(chǎn)生不恰當(dāng)?shù)妮敵觯虼嗽谑褂脮r(shí)需要謹(jǐn)慎,并考慮到其可能的錯(cuò)誤預(yù)測(cè)。

例如:

圖片

樣例論文3中,相關(guān)推文是對(duì)這篇論文的評(píng)價(jià),暗示該論文指出諾獎(jiǎng)得主的某篇論文存在問(wèn)題。

然而,ChatGPT將樣例論文3誤以為是被撤稿的諾獎(jiǎng)得主的相關(guān)工作,因此這篇論文可能被撤稿。

此處的分析結(jié)果表明,ChatGPT存在一定的邏輯推理謬誤與過(guò)度解讀等問(wèn)題。

因此,ChatGPT雖然能夠通過(guò)推文從一定程度上預(yù)測(cè)論文撤稿,與人工預(yù)測(cè)的一致性在各模型中表現(xiàn)最好,但其在當(dāng)前并非完美,在未來(lái)仍有長(zhǎng)足的改進(jìn)空間。

網(wǎng)友對(duì)這項(xiàng)研究也挺關(guān)注,表示用ChatGPT預(yù)測(cè)論文撤稿,真是從未設(shè)想過(guò)的道路。

因缺斯汀,我還以為沒(méi)有足夠多的數(shù)據(jù)來(lái)支撐這一結(jié)論呢!

圖片

總體而言,研究揭示了社交媒體討論作為論文撤稿早期預(yù)警的潛力,同時(shí)也展示了ChatGPT等生成式人工智能在促進(jìn)科研誠(chéng)信方面的潛在應(yīng)用。

研究作者介紹

最后,來(lái)認(rèn)識(shí)一下這個(gè)研究的作者~

Er-Te Zheng(鄭爾特),人大信息資源管理學(xué)院碩士生,由Zhichao Fang助理教授指導(dǎo);本科時(shí),他在浙江大學(xué)獲得管理學(xué)學(xué)士學(xué)位,師從Hui-Zhen Fu副教授。

他的研究方向涉及計(jì)算社會(huì)科學(xué)、科學(xué)學(xué)和科學(xué)計(jì)量。

Hui-Zhen Fu(付慧真),浙大公共管理學(xué)院信息資源管理系副教授,北京大學(xué)博士。

擔(dān)任信息資源管理研究所副所長(zhǎng),荷蘭萊頓大學(xué)科學(xué)技術(shù)研究中心(CWTS)訪問(wèn)學(xué)者。

她的研究方向?yàn)榻徊婵茖W(xué)、科學(xué)計(jì)量、科研誠(chéng)信和科研管理,在國(guó)際權(quán)威刊物發(fā)表論文超40篇(SCI/SSCI),連續(xù)四年(2020-2023)入選愛(ài)思唯爾中國(guó)高被引學(xué)者榜單。

Zhichao Fang(方志超),人大信息資源管理學(xué)院助理教授,荷蘭萊頓大學(xué)科學(xué)與技術(shù)研究中心(CWTS)博士,萊頓大學(xué)CWTS客座研究員,伊朗波斯灣大學(xué)社交媒體數(shù)據(jù)研究組成員。

他的研究方向?yàn)榭茖W(xué)學(xué)、科學(xué)計(jì)量和社交媒體計(jì)量學(xué),在科學(xué)計(jì)量學(xué)與科技政策等領(lǐng)域發(fā)表SCI/SSCI論文20篇。

論文鏈接:https://arxiv.org/abs/2403.16851

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-04-15 12:55:00

數(shù)據(jù)訓(xùn)練

2024-06-11 07:45:00

2020-05-21 12:59:51

邊緣存儲(chǔ)存儲(chǔ)物聯(lián)網(wǎng)

2018-04-26 10:38:34

2023-11-20 21:56:04

AI推理

2020-07-08 13:26:47

Python

2025-03-20 10:03:44

2023-10-06 13:35:11

AI數(shù)據(jù)

2023-08-15 14:55:57

2023-08-08 13:54:15

2015-08-21 13:10:14

APM數(shù)據(jù)

2024-01-03 13:37:00

模型數(shù)據(jù)

2015-08-19 14:01:14

APM

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2024-05-27 13:42:00

2024-05-20 08:40:00

2018-06-08 15:51:56

CNN皮膚癌人工智能

2023-06-19 08:19:50

2025-01-21 08:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩高清在线 | 中文字幕一区在线观看视频 | 精品一二区 | 日韩一区二区三区在线视频 | 欧美精品久久久久久久久老牛影院 | 久久久久久www | 中文字幕人成乱码在线观看 | 亚洲综合区 | 国产精品亚洲精品 | 国产精品久久久久久亚洲调教 | 欧洲成人午夜免费大片 | 毛片区| 人人草天天草 | 超碰伊人 | 日韩2020狼一二三 | 久久久一区二区三区四区 | 欧美一极视频 | 亚洲精品欧美一区二区三区 | 国产精品一区在线 | 午夜影视 | 中文字幕专区 | 国产精品精品 | 日韩美女爱爱 | 91av在线影院 | 亚洲国产成人久久综合一区,久久久国产99 | 亚洲一区国产精品 | 成人欧美日韩一区二区三区 | 日韩欧美视频在线 | 天天综合成人网 | 天堂va在线 | 天天看逼 | 九九av | 国产精品亚洲欧美日韩一区在线 | 天天爽天天操 | 欧美一区二区三 | 国产精品无码久久久久 | 91在线观看视频 | 国产精品视频一二三区 | 久久精品亚洲 | 亚洲欧美在线观看 | 国产综合精品一区二区三区 |