成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR高分論文險遭拒,只因未引用「造假」研究???作者怒噴:對方論文用Claude生成

人工智能 新聞
該論文的作者舉報,所謂「先前的研究」本身有實驗結果矛盾,甚至還涉嫌抄襲他們的成果,拿他們的論文當大模型語料用Claude生成論文等不當行為。但卻被COLM 2024接收。

有在離譜。

高分論文因為沒有引用先前的研究而被ICLR拒稿了?!

圖片圖片

于是作者提起上訴,審稿主席們推翻之前的決定,最終論文被接收并選為Spotlight

本以為這場鬧劇就這么結束了。

沒想到,誒,還牽出更離譜的事兒。

該論文的作者舉報,所謂「先前的研究」本身有實驗結果矛盾,甚至還涉嫌抄襲他們的成果,拿他們的論文當大模型語料用Claude生成論文等不當行為。但卻被COLM 2024接收。

圖片圖片

基于以上原因,他們拒絕引用該論文。

其實啊,這事兒他們之前爭論過,如今又被熱心網友扒了出來,雙方作者又透露了更多細節。

來來來,速來吃個瓜。

因為沒有引用研究而被拒稿

首先來看看這篇ICLR 2025 Spotlight論文說了啥。

圖片圖片

他們確定了在Scaling Law范式中強模型崩潰現象的存在,即由于訓練語料庫中的合成數據而導致的嚴重性能下降,并且研究了模型大小的影響。

即便只有1%的合成數據,也會導致模型崩潰,換句話就是,訓練集越來越大,也不能提高性能。

由于這篇論文「質量上乘,文筆流暢,并具有實用價值,以及理論結果的合理性」,審稿組一致給出積極的評價。

圖片圖片

圖片圖片

然而就在討論期間,有人發布了條公開評論,他們故意沒有引用一篇與他們這個成果密切相關的文章:

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data

該論文最初發表于2024年10月的COLM 2024。

圖片圖片

評論的這個人Rylan Schaeffer正好是這個篇論文的共同一作。

圖片圖片

圖片圖片

在這篇長文中,他主要強調了三點:

1、與他們及先前的研究結論完全矛盾,此前他們表明,即使真實數據的比例消失,模型崩潰也可以被避免。

2、里面的實驗設置和結果引用的是他們的論文,但都沒有引用。

3、作者是故意沒有引用的。

而按照ICLR的要求,根據既定的良好科學行為規范,應引用并適當討論密切相關的先前研究(發表于2024年7月1日之前)。

但要是不知道相關成果的話可以另說,但關鍵是作者知道這一研究,但是故意不引用。

對此,作者進行了一一回應。當中表示,他們中間有過交流,但是對方的技術貢獻比較薄弱,結論還存在誤導/不準確。

還有個關鍵點是,這篇 COLM 2024 論文發表于去年10月,而 ICLR 審稿要求相關論文要是在 2024 年 7 月 1 日之后其實可以無需引用。

圖片圖片

圖片圖片

對于這種「不當行為」,評審AC就覺得,任何作者都不應拒絕引用在同行評審會議上發表的密切相關的先前研究,即使他們可能不同意先前研究的論點、質量或方法論。而且,還應該就先前研究進行批評。

基于這樣的邏輯,AC建議拒稿。

圖片圖片

不過在專家組討論之后,還是一致投票決定作者無需引用該 COLM 論文。

由于被拒的主要原因是缺少引用,且該論文在其他方面獲得了積極評價,因此該論文被接受。

并且被選為Spotlight

圖片圖片

模型崩潰到底誰成果?

本來這是去年的瓜,這周末突然被一熱心網友翻了出來。

圖片圖片

然后又炸出ICLR的原作者,拋出了更多細節:我們拒絕引用該論文,因為該論文作者存在嚴重的不當行為。

比如抄襲他們之前的工作,并且將他們的論文塞進大模型,讓AI生成另一篇論文,違反IRB等。

因為在公開論壇OpenReview上講不太合適,但他們上訴時已經提供了詳細的證據。

并且,這也不是第一次說明他們的不當行為了。

早在去年7月,他們就有過一次爭論。

圖片圖片

起因是合成數據導致模型崩潰這一發現登上了Nature,結果引發了不小的熱議。

被指抄襲的那個人Rylan Schaeffer就說了一嘴,你們要是想了解模型崩潰,可以看看我們COLM 2024的論文。

圖片圖片

然后這個高分論文的紐約大學教授Julia Kempe就站出來說明了他們的各種行為。

包括不限于,他們給「我們」看到的初始版本,沒有對一些此前關鍵研究進行充分討論。

圖片圖片

他們的結論存在誤導,其理論基于「我們」工作的一個微不足道的推論。

符號公式啥的也十分相似。。。

圖片圖片

甚至于說,「我們」的實驗還被喂給大模型投喂以生成他們的論文。

圖片圖片

而他們只是提前預料到了「我們」后續的論文。該論文表明,人類反饋可以挽救模型崩塌的問題

圖片圖片

而在Rylan Schaeffer這邊,他們的核心觀點在于,他們抱怨的不是「沒有被引用」這件事情,而是說選擇性地省略了之前的研究,從而制造了一種誤導性的說法,即任何數量的合成數據都可能有害。

圖片圖片

并且在今年3月,他還為此發表了篇立場文章:模型崩潰并不意味著你的想法

圖片圖片

谷歌的科學家也表達了類似的想法:

如果論文的結論涉及合成數據的問題,也許首先要看他們是如何生成這些數據的

而“強模型崩潰”的作者就把相當于將之前合成再合成的數據集拿過來再訓練出一個模型,并添加了十幾頁的數學來證明其背后的理論依據。

圖片圖片

至于孰對孰錯,還是再讓子彈飛一會兒。

對于這件事兒,你怎么看呢?

參考鏈接:[1]https://openreview.net/forum?id=et5l9qPUhm

[2]https://x.com/RylanSchaeffer/status/1816535790534701304

[3]https://x.com/suchenzang/status/1910783588943176128

[4]https://arxiv.org/abs/2503.03150

[5]https://arxiv.org/pdf/2410.04840 

[6]https://arxiv.org/abs/2404.01413

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-01-17 12:05:12

AI模型

2025-02-28 10:05:00

AI生成

2023-12-17 13:02:10

AI模型

2021-03-25 23:22:22

Nature論文科學

2023-02-01 10:01:23

ChatGPT論文

2024-10-08 14:48:24

2024-05-09 11:24:20

AI論文

2023-06-27 09:53:11

論文AI

2024-05-08 09:37:36

AI論文

2025-03-13 09:16:25

2024-02-26 07:40:00

研究論文

2024-12-02 09:00:00

2024-01-26 12:51:33

AI

2020-04-20 13:45:32

神經網絡模型代碼

2025-01-06 08:00:00

AI論文

2023-01-13 13:26:38

ChatGPT醫學寫作能力

2021-10-15 10:39:08

GitHub 技術人工智能

2023-11-13 18:50:55

AI數據

2025-03-14 12:06:07

2023-03-23 18:46:19

論文
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美激情网站 | 久久久久国产一区二区三区四区 | 日韩欧美在线视频一区 | 国产一在线观看 | 精品麻豆剧传媒av国产九九九 | 欧美在线视频观看 | 国产福利久久 | 二区中文字幕 | 国产黄色精品 | 久久久久久久av麻豆果冻 | 天天射天天干 | 日韩一级黄色毛片 | 国产成在线观看免费视频 | 成人做爰69片免费观看 | a级片网站| 国产电影一区二区在线观看 | 免费性视频 | 亚洲性在线 | 91精品免费视频 | 亚洲精品国产成人 | 亚洲人成在线播放 | 亚洲成人一二区 | 日本不卡免费新一二三区 | 久久精品小短片 | 亚洲黄色片免费观看 | 国产一区二区三区四区在线观看 | 国产精品久久久 | 欧美影院| 国产a一区二区 | 天天色天天| 蜜月aⅴ国产精品 | 国产精品www | 中文字幕视频一区二区 | 亚洲在线免费观看 | 国产一区精品在线 | 国产精品一区二区免费 | 成人在线视频免费播放 | 国产精品久久久久久久免费大片 | 成人久久18免费网站 | 国产精品不卡一区 | 成人在线视频观看 |