成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個數據集,一年產稿7876篇!AI強力加持,垃圾論文海量爆發

人工智能 新聞
當學術研究淪為「填空游戲」,利用美國NHANES公共數據集,結合AI工具如ChatGPT,研究者通過套用模板、排列變量,批量生產看似精美卻質量堪憂的論文。背后不僅是技術的濫用,更是科研評價體系扭曲的縮影。

假如你是一位科研期刊的編輯,每天打開郵箱,迎接的卻是一堆似曾相識的論文。

它們主題各異,數據整齊,措辭流暢,但總有種讓人不安的「模板感」。

這可不是一個瞎編的場景,而是2024年發生在《Scientific Reports》編輯Matt Spick身上的真實經歷。

作為英國薩里大學的統計學家,他發現大量論文像流水線產品般涌來,全部基于美國國家健康與營養檢查調查(NHANES)這一公共數據集。

「我收到的幾乎一模一樣的論文太多了,有時一天一篇,有時兩天三篇,」Spick無奈地說,「這不太對勁」。

近日,Science網站的一篇文章詳細詳細描述了這個事實。

圖片

文章地址:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai

Spick發現,他所在期刊遇到的問題只是冰山一角。

這些論文并非孤立現象,而是席卷全球學術界的一場「科研填空游戲」

上周,他與同事在《PLOS Biology》雜志上發表的研究指出,近年來,使用NHANES的低質量論文數量激增。

圖片

論文地址:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152

NHANES的「魔力」與「陷阱」

NHANES是一個龐大的公共數據集,涵蓋了超過13萬人的健康檢查、血液檢測和飲食信息。

它的開放性讓研究者可以輕松挖掘數據,探索健康與疾病的關系。

然而,這種便利也成了雙刃劍。

Spick發現,這些NHANES論文遵循一個簡單的「公式」:選擇一種健康狀況(比如抑郁癥)、一個可能相關的環境或生理因素(比如維生素D水平),再限定一個人群(比如65歲以上男性)。通過排列組合,研究者能迅速生成「新發現」。

「感覺好像所有可能的組合都被人研究過了」Spick說。

西北大學的元科學家Reese Richardson將其形象地稱之為「科研填空游戲」。

他提到,其他研究者在不少領域也發現了類似的「爆發式增長」,比如基因研究、文獻計量分析,還有不同科學學科里的性別差異研究。

為了量化這一現象,Spick團隊在PubMed和Scopus兩大數據庫中搜索基于NHANES的單變量關聯研究。

他們在147種期刊中發現了341篇這樣的論文,包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》。

結果令人震驚:2014年至2021年,這類論文年均僅4篇,但2022年起數量激增,2024年截至10月已達190篇,遠超其他大型健康數據集研究的增長速度。

更令人擔憂的是,其中的許多論文選擇性地分析數據,比如只用某些年份或年齡段的數據,缺乏明確理由。

這背后往往是「p值狩獵」——通過反復嘗試找到統計上顯著的結果,哪怕這些結果可能是虛假的。

以抑郁癥相關研究為例,Spick團隊分析了28篇NHANES論文,發現在對多重檢驗結果進行假發現率(FDR)校正后,僅有 13 項關聯仍保持統計學顯著性。

這意味著一半以上的「發現」可能是統計噪聲,而非真相。

Spick和他的團隊甚至認為,他們的分析可能還大大低估了問題的嚴重性。

他們的搜索只針對符合Spick模式的NHANES研究,更廣泛的搜索發現,使用NHANES數據集的論文從2023年的4926篇激增到2024年的7876篇。

Spick還指出,其他大型健康數據集,比如全球疾病負擔研究,同樣可能存在類似漏洞。

AI與論文工廠的「共謀」

為什么NHANES論文會在2022年后井噴?

答案指向了一個時間點:AI工具如ChatGPT的廣泛普及。

這些工具能根據簡單指令生成流暢文本,甚至通過改寫來逃避抄襲檢測。

悉尼大學的分子生物學家Jennifer Byrne在審稿時指出,這種論文的「規模和時機」讓人懷疑背后有協調運作,論文工廠(paper mills)可能是幕后推手。

論文工廠是專門出售論文署名權的商業機構。它們利用AI快速生成論文框架,再結合NHANES等公共數據集的便利性,生產出看似合法的論文。

Spick團隊甚至編寫了一段簡單的Python代碼,就能從NHANES中提取數據并「批量生成」疾病與健康變量的組合。

這種「工業化」生產模式讓低質量論文如洪水般涌入學術期刊。

「老實說,這讓我氣得跳腳。」Spick表示。

哲學家Hannah Arendt曾提出「平庸之惡」的概念,形容那些在體制下機械執行惡行的行為。

今天的論文工廠何嘗不是一種「平庸之惡」?它們未必有意破壞科學,但機械化的論文生產,悄然侵蝕了學術的根基。

扭曲之鏡

這場「科研填空游戲」的根源不僅在于技術和數據,還在于學術生態的扭曲。

Richardson一針見血地指出:「所有被點名的期刊都收取了約1000美元的發表費用,來刊登這些垃圾論文。」

開放獲取期刊(如《PLOS Biology》)通過作者付費實現免費閱讀,但這也讓一些期刊更看重數量而非質量。

更深層的問題是科研評價體系。

許多高校和機構以論文數量作為晉升和資助的主要標準,而非論文的質量或影響力。

在「發表即成功」的文化下,研究者只能制造出更多論文,哪怕這些論文毫無意義。

但當科研變成填空游戲,研究者很難從中找到意義。相反,他們被困在一個循環中:不斷生產「成果」,即使這些成果可能只是學術垃圾。

當論文成為KPI,科學便從探索真理淪為數字游戲。

破局之道

這場危機并非無解。

Spick建議,期刊應加強對NHANES等公共數據集論文的審查,比如要求作者明確數據選擇的理由,并進行更嚴格的統計校正。Byrne則呼吁開發更智能的檢測工具,以識別AI生成的文本。

更根本的改變需要重塑學術激勵機制。

Richardson警告:「除非我們徹底改革科研發表的激勵模式,否則問題只會更糟」。

這場「科研填空游戲」更像是一面鏡子,映照出技術進步與學術倫理的碰撞。

AI和公共數據集本應是科學的加速器,卻在扭曲的激勵下成了垃圾論文的溫床。

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-01-21 15:43:22

谷歌研究AI

2025-01-10 09:20:00

2022-06-09 15:46:05

物聯網5G

2018-10-25 11:05:17

AI醫療垃圾桶

2011-06-01 10:59:59

Oceanbase海量數據庫

2014-02-18 14:41:55

數據中心高效節能

2024-09-26 08:03:25

2019-08-02 15:39:06

PythonLinuxJSON

2021-01-14 11:39:05

云計算

2024-01-24 17:47:27

人工智能Keras

2023-12-20 14:03:00

模型數據

2015-06-10 14:57:04

數據中心

2018-10-16 14:25:14

2019-01-28 10:45:28

AI 數據人工智能

2023-09-13 07:06:40

開源技術

2017-06-03 15:43:54

數據項目框架

2018-02-25 17:30:18

2015-07-14 09:20:33

2024-10-15 14:58:44

2023-12-01 11:05:36

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人a v| 91在线第一页 | 欧美精品久久久久久久久久 | 红色av社区 | 久久伦理中文字幕 | 久久综合九色综合欧美狠狠 | 国产91视频一区二区 | 亚洲欧美日韩一区二区 | 6080亚洲精品一区二区 | 国产一区在线免费观看 | 久久国产免费看 | 亚洲视频在线观看 | 中文字幕亚洲专区 | 逼逼视频 | 天天干天天草 | 成人免费视频在线观看 | 成人欧美一区二区 | 人干人人 | 亚洲高清成人 | 欧美精品一区二区三区四区 在线 | www.干| 黄色网址免费在线观看 | av中文在线 | 欧美一级在线观看 | 欧美一级片a | 黄色片视频 | 操久久 | 国产综合视频 | 羞羞视频免费在线观看 | 亚洲精品美女视频 | 99视频在线免费观看 | 正在播放国产精品 | 久久三级影院 | 超碰导航 | 国产精品久久久久久 | 一区二区三区四区在线视频 | 日韩免费在线 | 成人影| 亚洲欧美一区二区三区1000 | 亚洲成人自拍 | 亚洲人人 |