GPT-4得不到MIT學位,MIT研究團隊回應「作弊」,但網友不買賬
幾天前,一篇名為《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的論文經歷了一場輿論風波。
論文地址:https://arxiv.org/pdf/2306.08997.pdf
最初,研究團隊從 MIT 的數學、電氣工程和計算機科學 (EECS) 專業的課程問題、期中考試和期末考試中,整理出了一個包含 4550 個問題和解決方案的綜合數據集,并讓各種大語言模型去完成這個數據集的題目,得出了「GPT-4 幾乎滿分通過 MIT EECS 和數學本科考試」的結論。
這一結果很快被人指出不夠嚴謹,還給出了多項證據和詳盡的分析,表示數據集本身就有問題,用 GPT-4 自動打分的評價機制也很有問題:
「我們的批評主要是針對這項研究的方法和嚴謹性,而不是針對其內容。我們對大型語言模型實際解決麻省理工學院課程的能力沒有任何意見,只是認為本文未能以科學嚴謹的方式證明這一點。」
面對撲面而來的質疑,研究團隊在接下來的一周里卻沒有進行任何公開回應,沒有承認,也沒有道歉。
但在昨天,人們等到了來自幾位教授(也是論文作者)署名的官方通報:
6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席運營官 / 副主任)、Tonio Buonassisi(MIT 機械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就該論文情況發表了公開聲明。
聲明內容如下:
6 月 15 日,Iddo Drori 在 arXiv 上發布了一篇與麻省理工學院幾十門課程的考試和作業數據集相關的研究論文,他這樣做沒有得到其他合著者的同意,盡管已經被告知在發表前應該糾正的問題。我們中的一個人在周末旅行后,于 6 月 18 日星期天才知道這個帖子。
在處理這件事的過程中,我們發現,與 Drori 向我們和為該項目收集數據的學生所傳達的信息相反,Drori 并沒有得到所有導師的許可來收集構成論文主題的數據集的作業和考試題。其中一些涉及課程的導師,在論文出現在社交媒體上和 Drori 未經許可在網上發布數據樣本時,才知道這個數據集的存在且其中包含了自己的課程材料。
這些都是正在通過機構渠道解決的嚴重問題,所以我們不愿意公開發表這樣的聲明,但我們覺得有必要解釋為什么這篇論文不應該被發表而必須被撤回。我們已經要求 Drori 從 arXiv 撤回這篇論文,并且直接聯系了 arXiv 解釋了這個情況。
我們想強調的是,這篇論文中的所有學生作者都非常努力地工作,如果數據是在同意的情況下收集的,這本來是一篇非常有趣和寶貴的論文。已經發表的工作中出現的問題并不是學生的錯。
而且,GPT-4 不能獲得麻省理工學院的學位。
這樣一份調查聲明,真的足夠了嗎?回想一周前三位質疑者提交的分析,數據集被污染、手動檢查的結果與論文所說的「幾乎滿分通過」相差甚遠,這至少意味著論文內容應該被重新審查。
顯然,并不是所有人都對調查結果滿意,有人表示這是避重就輕的說法,只是關注他們不應該使用這些數據的事實,而不提捏造結果的錯誤。
「所以這三位麻省理工學院的教授認為,未經同意使用數據是論文的唯一問題。」
針對「這本來是一篇非常有趣和寶貴的論文」的說法,更多人點了反對:「讓 GPT-4 給自己生成的答案打分,這就是有趣和寶貴嗎?」
另外,有人發現 Iddo Drori 的個人主頁已經更新,刪掉了「MIT 客座教授」的 title。而且根據領英主頁的信息,他將在這個月結束自己的 MIT 訪問之旅。
「一些教授決定讓一位客座講師成為替罪羊,并試圖將每個人的注意力從方法論轉移到數據隱私問題上,卻沒有批評這篇論文。這是多么典型的學術政治問題。」
正如三位質疑者在博客中所寫的那樣:「這篇論文道出了最近人工智能領域研究的一個更大趨勢。隨著該領域的進展越來越快,新發現的時間節奏似乎在縮短,這往往伴隨著捷徑。一個特別令人擔憂的趨勢是使用像 GPT-4 這樣基于語言的模型來評估一個模型的準確性的技術。」
對于此事,你怎么看?