ChatGPT讓學生課堂表現大漲，教授怒斥：我用可以，你們用就是作弊！

作者：新智元 2023-09-22 08:27:59

人工智能新聞

最新研究表明，ChatGPT大學課堂表現優于學生。老師愿意自己使用ChatGPT幫助自己工作，但是學生使用就會認定為作弊。不過長遠來看，學生和老師都認為ChatGPT將對教學帶來積極影響。

ChatGPT在學校里到底能不能用，該怎么用？

針對這個問題教育界，監管部門，學生各執一詞。

某些高校部分專業，因為找不到防止學生采用ChatGPT作弊的方式，直接把執行多年的Take Home考試給禁了，所有考試回到一張紙一支筆的年代。

為了更好地研究ChatGPT對于課堂教學的影響，紐約大學的研究人員針對不同國家的學生和老師，對他們的課堂表現和使用ChatGPT的意愿進行了非常詳細的調查研究，調查結果登上Nature。

研究人員發現，在9個專業中，ChatGPT的課堂表現超過普通學生。

教授認為，在學校中使用ChatGPT，能讓自己更好地教學。但是對于讓學生使用ChatGPT學習，完成作業，卻非常不支持，會將使用ChatGPT的學生視為作弊或者抄襲。

研究人員發現，在9個專業中，ChatGPT的課堂表現超過普通學生。

教授認為，在學校中使用ChatGPT，能讓自己更好地教學，但是對于讓學生使用ChatGPT學習，完成作業，卻非常不支持，會將使用ChatGPT的學生視為作弊或者抄襲。

研究人員通過將ChatGPT與來自8個學科的32門大學水平課程的學生的表現進行比較，來研究ChatGPT作為抄襲工具的潛力。

此外，研究人員評估了專門用于檢測ChatGPT生成文本的現有算法，并評估了可用于逃避此類算法的混淆攻擊的有效性。

為了更好地了解學生和教育工作者對ChatGPT的效用以及使用ChatGPT所產生的道德和規范問題的看法，研究人員調查了來自五個國家的參與者：巴西、印度、日本、英國和美國。

此外，研究人員對作者所在機構的151名本科生和60名教授進行了更廣泛的調查，以探索不同學科對ChatGPT的看法差異。

研究人員發現，ChatGPT的表現與32門課程中的9門課程的學生相當，甚至更好。

此外，研究人員發現當前的檢測算法傾向于將人類答案錯誤地分類為人工智能生成的答案，并將ChatGPT答案錯誤地分類為人工生成的答案。

更糟糕的是，混淆攻擊使這些算法無效，無法檢測95%的ChatGPT答案。最后，在學生和教育工作者之間似乎都有一個共識，即他們打算在他們的作業中使用ChatGPT，而將其視為剽竊。

這兩者之間的內在沖突給教育機構提出了緊迫的挑戰，要求他們制定與生成式人工智能相關的適當的學術誠信政策，特別是與ChatGPT相關的政策。

研究人員的研究結果提供了及時的見解，可以指導圍繞生成式人工智能時代教育改革的政策討論。

論文

研究人員從探索生成式人工智能解決大學水平考試和家庭作業的當前能力開始。為此，研究人員聯系了紐約大學阿布扎比分校（New York University Abu Dhabi）的教職員工，請他們提供他們在該大學教授的課程中的10個問題，以及每個問題隨機抽取的三名學生的答案。

此外，對于每門課程，ChatGPT用于生成10個問題中的每個問題的三個不同答案。

然后，學生和ChatGPT的答案按隨機順序匯編成一份文件，標記為「提交1」到「提交6」。

然后，每一份提交的材料都由三個不同的評分員打分，這些評分員是由教過這門課的教員招募的，并補充表1以了解評級間的信度。雖然大多數課程的評分者間信度大于0.6，但32門課程中有6門沒有達到這個閾值。

這六門課程中有四門是基于論文的，本質上是主觀的，這可以解釋這種差異。

然而，剩下的兩門課程（以人為中心的數據科學和面向對象的編程）不是。盡管如此，如果研究人員從分析中排除這兩種過程，會看到質量上相似的結果。

計算結果見上圖a。除了數學和經濟學，每個學科ChatGPT成績至少有一門課程的成績與學生相當，甚至超過學生。

這些課程是：「數據結構」，「公共政策概論」，「定量合成生物學」，「網絡面向對象的程序設計」，「土木工程材料的結構和性能」，「生物心理學」，「氣候變化」，「管理和組織」。

作為穩定性驗證，研究人員標準化了每門課程的每個評分者給出的分數，從而能夠考量不同年級的影響，同樣還是發現ChatGPT的表現與上述九門課程的學生相當，甚至更好。

在分析了ChatGPT在不同課程上的表現之后，研究人員現在對其表現如何隨不同的認知和知識水平而變化進行探索性分析。

為此，研究人員要求參與調查的教師詳細說明他們的每個問題在安德森和克拉斯沃爾分類法的「知識」和「認知過程」維度中的位置。關于構成每個維度的級別的描述，請參見下表。分析結果下圖b所示。

有趣的是，在要求高水平知識和認知過程的問題上，與要求中級水平的問題相比，ChatGPT和學生之間的表現差距要小得多。

ChatGPT在需要創造力的問題上的表現——認知過程維度的最高水平——平均得分為7.5分，而學生的平均得分為7.9分。

ChatGPT唯一比學生表現更好的問題，是那些需要事實性知識的問題，這說明它接受過大量的數據訓練。最后，研究人員比較了ChatGPT針對不同類型問題的能力。為此，對于每個問題，研究人員要求參與的教師說明問題是否:

（1）涉及數學

（2）涉及代碼片段

（3）需要了解特定作者、論文/書籍或特定技術/方法

（4）是否是一個刁鉆的問題

結果總結在下圖中。

圖片

同樣，研究人員發現ChatGPT和學生之間最大的成績差距是與數學相關的問題，其次是那些刁鉆的問題。就目前而言，人類似乎在這些領域的表現優于ChatGPT。

教育工作者如何看待ChtaGPT的使用？

研究人員在巴西、印度、日本、英國和美國這五個國家進行了一項全球調查，每個國家至少有100名教育工作者和200名學生。有關詳細信息，請參閱方法。下圖是研究人員研究結果的總結。

圖片

在深入研究這一分析之前，應該注意到研究人員調查的學生和教育工作者來自不同的教育水平。

因此，研究人員只關注本科生和研究生，以及大學教育工作者，并發現了大致相似的結果。

研究人員首先比較不同國家的學生和教育工作者的反應。

每個圖對應于調查中的一個不同問題，詢問受訪者在多大程度上同意或不同意關于ChatGPT的特定陳述（強烈不同意，不同意，中性，同意，強烈同意）。

研究人員將陳述分為三大類：

（1）小組a：在教育環境中使用ChatGPT的道德問題。

（2）小組b：ChatGPT對未來工作的影響。

（3）小組c：ChatGPT對教育不平等的影響。

小組a（道德），似乎有一個共識——在學校作業中使用ChatGPT應該得到認可。相比之下，當涉及到確定在家庭作業中使用ChatGPT是否不道德以及是否應該禁止在學校工作中使用ChatGPT時，意見不一。

例如，印度和美國的學生認為這是不道德的，應該被禁止，而巴西的學生則認為相反。

小組b（工作）的問題中，五個國家的學生都認為他們可以將日常任務交給ChatGPT來完成，巴西和印度的教育工作者似乎也同意這一說法。

印度是唯一一個教育工作者認為需要ChatGPT來提高他們在工作中的競爭力的國家，印度的學生也最同意這一說法。此外，印度的教育工作者和學生是唯一擔心ChatGPT將來會搶走他們工作的人群。

就小組c（不平等）問題，人們似乎都認為ChatGPT會提高非英語母語學生的競爭力。當談到ChatGPT是否會減少教育不平等時，巴西和日本（研究人員樣本中的兩個非英語國家）的教育工作者同意這一說法，而其余三個國家的教育工作者則不同意。

研究人員比較了教育工作者和學生對以下問題的回答分布:

「你認為你的學生/同齡人中有多少人會在學習中使用ChatGPT ?」結果如下圖所示，其中教育者和學生的反應分布分別用橙色和藍色表示，相同顏色的垂直線代表均值。

黑色豎線代表回答「是」的學生的百分比：

「考慮到你下學期的學習，你會使用ChatGPT來幫助你的學習嗎?」正如第四行所示，代表了五個國家的平均反應，74%的學生表示他們會使用ChatGPT（黑線），而教育工作者和學生都低估了這一比例。

對于表示會使用它的學生（74%），他們的主要原因是提高他們的技能和節省時間（下圖）。至于那些說他們不會使用ChatGPT的人（26%），他們的主要原因是不知道如何使用或不需要它，而不是害怕被懲罰或不道德的行為。

最后，研究人員進行OLS回歸分析，以探討哪些因素可能與學生在下一個學期的學習中使用ChatGPT的決定有關。

上圖總結了幾個感興趣的獨立變量的結果。

可以看出，來自巴西和印度的學生比來自美國的學生更有可能使用ChatGPT，而來自日本的學生使用ChatGPT的可能性要小得多。

至于以前使用ChatGPT的經驗，那些使用過它的人更有可能再次使用它。相反，僅僅聽說ChatGPT與學生決定使用它來幫助他們的學習并沒有顯著的聯系。

最后，與上層階級的學生相比，來自貧困和工人階級背景的學生更有可能表示他們會在學習中使用ChatGPT。

高校師生如何看待在學校中使用ChatGPT？

在分析了全球調查之后，研究人員現在將注意力轉移到在作者所在機構紐約大學進行的第二項調查。這次調查的范圍比前一次調查要小，但主要以大學生和教授為對象，可以觀察學生的平均成績和教授的聘用方式的差異。

圖片

上圖a描述了151名學生（y軸）和60名教授（x軸）對前面討論的8個陳述的回應，分為三大類:

（1）在教育背景下使用ChatGPT的道德規范（紅色）

（2）科技對未來就業的影響（綠色）

（3）ChatGPT對教育不平等的影響（藍色）

可以看出，與學生相比，教授對于ChatGPT使用的態度更加緩和。（所有紅色數據點如何落在對角線下半部分），但是教授相比于學生，認為ChatGPT在就業和公平性方面將會發揮更大的作用。

盡管存在這些差異，教授和學生似乎都認為應該使用ChatGPT，而且都不認為它會奪走他們未來的工作。

上圖顯示了學生是否計劃使用ChatGPT來輔助他們的作業（前兩行），以及他們是否認為應該使用ChatGPT來輔助他們的作業（最后兩行）。

大多數學生計劃使用ChatGPT來輔助他們的作業（57%），并期望他們的同齡人使用它來達到這個目的（64%）。此外，大多數人認為應該使用ChatGPT（61%），并期望他們的同齡人認為應該使用ChatGPT（55%）來協助完成作業。

同樣地，上圖描述了教授是否打算將ChatGPT的使用視為剽竊（前兩行），以及他們是否認為應該將ChatGPT的使用視為剽竊（最后兩行）。

大多數教授計劃將使用ChatGPT視為剽竊（69%），并期望其他人也這樣做（71%）。

此外，大多數人認為使用ChatGPT應該被視為抄襲（72%），并期望他們的同齡人也這樣認為（73%）。

圖片

上圖中，研究人員還比較了不同學科、GPA和社會經濟地位的學生使用ChatGPT學習的意愿。

從不同學科來看，所有四個學科的大多數學生都表示他們計劃使用ChatGPT。

至于GPA，除了那些不愿意透露自己GPA的學生外，所有GPA等級中的大多數學生都表示他們會使用這個工具。

同樣，對于不同社會經濟地位的學生來說，大多數學生都提到他們會使用ChatGPT。

圖片

而教授們的觀點體現在上圖中。如圖所示，除了工程專業以外的其他學科，大部分教師都認為在作業中使用ChatGPT是抄襲。

在不同教學經驗的教授，大多數教授都這樣認為，不管他們的經驗如何。

同樣，對于不同職稱的教授，大多數教授都同意將使用ChatGPT視為剽竊。

在學校使用ChatGPT能否被有效識別出來？

研究人員使用了兩個分類器，即GPTZero和OpenAI自己的AI文本分類器，這兩個分類器都是專門用于確定是否使用AI生成了文本體。

上圖顯示了研究人員使用這兩個分類器來量化被錯誤分類為ChatGPT的人類創作內容的百分比，以及被錯誤分類為人類的ChatGPT生成內容的比例。

OpenAI的Text Classifier將5%的學生提交的內容錯誤地判定為人工智能生成的，而ChatGPT的49%的提交內容錯誤地判定為人工生成的。GPTZero的假陽性率較高（18%），假陰性率較低（32%）。

結合研究人員之前寫過的文章，總結起來，就是AI生成的文本和人類創作的文本幾乎不可能被有效判定出來。

這也是為什么OpenAI將自己的檢測器下架的原因。

那進一步說明了，對于ChatGPT在學校中的使用情況，老師和學生都沒辦法證明自己到底用還是沒用AI輔助。

責任編輯：張燕妮來源：新智元

ChatGPT 課堂

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT讓學生課堂表現大漲，教授怒斥：我用可以，你們用就是作弊！

論文

高校師生如何看待在學校中使用ChatGPT？

在學校使用ChatGPT能否被有效識別出來？