成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4得不到MIT學位,MIT研究團隊回應「作弊」,但網友不買賬

人工智能
幾天前,一篇名為《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的論文經歷了一場輿論風波。

幾天前,一篇名為《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的論文經歷了一場輿論風波。

圖片

論文地址:https://arxiv.org/pdf/2306.08997.pdf

最初,研究團隊從 MIT 的數學、電氣工程和計算機科學 (EECS) 專業的課程問題、期中考試和期末考試中,整理出了一個包含 4550 個問題和解決方案的綜合數據集,并讓各種大語言模型去完成這個數據集的題目,得出了「GPT-4 幾乎滿分通過 MIT EECS 和數學本科考試」的結論。

這一結果很快被人指出不夠嚴謹,還給出了多項證據和詳盡的分析,表示數據集本身就有問題,用 GPT-4 自動打分的評價機制也很有問題:

圖片

「我們的批評主要是針對這項研究的方法和嚴謹性,而不是針對其內容。我們對大型語言模型實際解決麻省理工學院課程的能力沒有任何意見,只是認為本文未能以科學嚴謹的方式證明這一點。」

面對撲面而來的質疑,研究團隊在接下來的一周里卻沒有進行任何公開回應,沒有承認,也沒有道歉。

但在昨天,人們等到了來自幾位教授(也是論文作者)署名的官方通報:

6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席運營官 / 副主任)、Tonio Buonassisi(MIT 機械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就該論文情況發表了公開聲明。

聲明內容如下:

6 月 15 日,Iddo Drori 在 arXiv 上發布了一篇與麻省理工學院幾十門課程的考試和作業數據集相關的研究論文,他這樣做沒有得到其他合著者的同意,盡管已經被告知在發表前應該糾正的問題。我們中的一個人在周末旅行后,于 6 月 18 日星期天才知道這個帖子。

在處理這件事的過程中,我們發現,與 Drori 向我們和為該項目收集數據的學生所傳達的信息相反,Drori 并沒有得到所有導師的許可來收集構成論文主題的數據集的作業和考試題。其中一些涉及課程的導師,在論文出現在社交媒體上和 Drori 未經許可在網上發布數據樣本時,才知道這個數據集的存在且其中包含了自己的課程材料。

這些都是正在通過機構渠道解決的嚴重問題,所以我們不愿意公開發表這樣的聲明,但我們覺得有必要解釋為什么這篇論文不應該被發表而必須被撤回。我們已經要求 Drori 從 arXiv 撤回這篇論文,并且直接聯系了 arXiv 解釋了這個情況。

我們想強調的是,這篇論文中的所有學生作者都非常努力地工作,如果數據是在同意的情況下收集的,這本來是一篇非常有趣和寶貴的論文。已經發表的工作中出現的問題并不是學生的錯。

而且,GPT-4 不能獲得麻省理工學院的學位。

這樣一份調查聲明,真的足夠了嗎?回想一周前三位質疑者提交的分析,數據集被污染、手動檢查的結果與論文所說的「幾乎滿分通過」相差甚遠,這至少意味著論文內容應該被重新審查。

顯然,并不是所有人都對調查結果滿意,有人表示這是避重就輕的說法,只是關注他們不應該使用這些數據的事實,而不提捏造結果的錯誤。

「所以這三位麻省理工學院的教授認為,未經同意使用數據是論文的唯一問題。」

圖片

針對「這本來是一篇非常有趣和寶貴的論文」的說法,更多人點了反對:「讓 GPT-4 給自己生成的答案打分,這就是有趣和寶貴嗎?」

圖片

另外,有人發現 Iddo Drori 的個人主頁已經更新,刪掉了「MIT 客座教授」的 title。而且根據領英主頁的信息,他將在這個月結束自己的 MIT 訪問之旅。

圖片

圖片

「一些教授決定讓一位客座講師成為替罪羊,并試圖將每個人的注意力從方法論轉移到數據隱私問題上,卻沒有批評這篇論文。這是多么典型的學術政治問題。」

圖片

正如三位質疑者在博客中所寫的那樣:「這篇論文道出了最近人工智能領域研究的一個更大趨勢。隨著該領域的進展越來越快,新發現的時間節奏似乎在縮短,這往往伴隨著捷徑。一個特別令人擔憂的趨勢是使用像 GPT-4 這樣基于語言的模型來評估一個模型的準確性的技術。」

對于此事,你怎么看?

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2023-07-16 23:04:10

GPT-4OpenAIMOE

2021-09-22 10:03:10

人工智能Transformer技術

2013-08-19 09:12:07

云價格戰基礎架構即服務IaaS

2023-06-19 10:09:01

數學AI

2023-07-04 10:18:25

開源模型

2023-06-19 12:28:21

GPT人工驗證數據集

2023-09-11 08:27:21

Windows微軟

2023-09-18 08:54:13

研究數據

2010-11-05 09:48:28

ZendCon 201PHP云計算

2013-05-23 10:50:12

Windows 8Modern應用

2023-06-21 13:37:41

模型研究

2014-09-05 11:03:42

智能家居

2024-02-29 13:08:50

2024-07-15 09:00:00

2021-07-27 23:00:11

微信設備功能

2023-07-04 14:01:26

GPT-4模型

2009-03-27 13:42:39

2009-03-27 09:51:21

百度貼吧改版

2023-03-29 10:31:40

MIT論文

2023-08-11 14:01:35

GPT-4推理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品在线免费视频 | 色婷婷狠狠 | www.4hu影院 | 一本色道精品久久一区二区三区 | 激情黄色在线观看 | 欧美bondage紧缚视频 | 日本精品裸体写真集在线观看 | 男女午夜免费视频 | 红色av社区 | 国产二区在线播放 | 天天人人精品 | 国外成人在线视频网站 | 久久免费视频观看 | 日日干日日操 | 欧美1区2区 | 国产网站在线播放 | 欧美a在线| 国产中文区二幕区2012 | 欧美一区免费 | 黄色三级在线播放 | 国产精品久久久久久久久免费高清 | 激情一区二区三区 | 中文天堂在线一区 | 亚洲欧美激情精品一区二区 | 成人免费三级电影 | 日韩欧美一级精品久久 | 狠狠躁夜夜躁人人爽天天高潮 | 欧美一区精品 | 999精品在线观看 | 欧美极品在线播放 | 欧美激情精品久久久久久变态 | 欧美精品1区2区 | a欧美| 日韩另类视频 | 日韩在线观看 | 欧美一区二区三区视频在线观看 | 国产在线观看一区二区三区 | 亚洲97| 国产色99 | 午夜精品久久久久久久星辰影院 | 精品一二三区视频 |