《自然》科學報告:大模型在社會情境判斷方面可以勝過人類
大模型在許多任務上表現優異,但是它們在社交情境中的判斷能力仍是一個亟待解答的問題。社會情境判斷不僅涉及對情境的理解,還包括適應和回應他人行為的能力。11 月 10 日《自然》科學報告子刊發布文章《Large language models can outperform humans in social situational judgments》,研究的目的正是為了探討 LLM 能否在這方面與人類匹敵甚至超越人類。這項研究通過情境判斷測試(SJT)對多款聊天機器人的表現進行了評估,并將其與人類參與者的表現進行了對比,試圖回答這一關鍵問題。
在這項研究中,研究團隊選擇了五款廣泛使用的聊天機器人:Microsoft Copilot、ChatGPT、Claude、Google Gemini 和 you.com 的智能助手。這些機器人均能夠處理自然語言并生成文本響應。在測試過程中,研究團隊嚴格控制變量,確保每次測試的對話上下文不影響結果,從而保證了實驗的嚴謹性和科學性。
研究團隊隸屬于德國航空航天中心(DLR)的航空與空間心理學部門,具體歸屬于位于漢堡的航空航天醫學研究所。團隊成員包括 Justin M. Mittelst?dt、Julia Maier、Panja Goerke、Frank Zinn 和 Michael Hermes。他們在航空與航天心理學領域有著豐富的研究經驗,致力于提升航空航天環境中與心理學相關的各類問題和能力。此次研究利用他們在心理學測評和人工智能領域的專業知識,深入探討了LLM在復雜社交情境中的潛力。
本次研究的數據和代碼部分可供審閱和驗證,以確保結果的透明性和可重復性。對于第一部分分析(包括人類和 AI 的響應及整體得分)的代碼和數據,可通過 PsychArchives 的審稿人鏈接獲取。鏈接地址為 PsychArchives(https://pasa.psycharchives.org/reviewonly/3c765f33df7a70fb3a7c3470d701003445254d19c4a8546404fdafca5da7cfc9)。
由于涉及數據的隱私和保密性,第二部分分析的數據無法公開獲取。如果需要此部分數據,可以直接聯系 Thomas Gatzka(專家評分)或通訊作者(LLM 評分)進行請求。這一流程確保了數據的合法和合規使用,同時也為進一步的研究提供了必要的支持。
通過提供數據和代碼的獲取方式,研究團隊希望促進學術界的開放和合作,使得更多研究人員能夠基于此研究進行后續工作,從而推動人工智能和心理學領域的進一步發展。
方法
情境判斷測試(SJT)是本次研究的核心工具之一,用于評估個體在復雜社交情境中的決策和判斷能力。SJT 是一種標準化的心理測量工具,通過模擬現實中的社交場景,提供一系列可能的行為選項,要求參與者選擇最適當和最不適當的行為。這種測試廣泛應用于心理學研究和人員選拔,因其有效性和可靠性而備受認可。
本次研究使用的 SJT 包含十二個不同的情境,每個情境都提供四個預定義的行為選項。測試開發期間,109 名獨立專家對這些行為選項的有效性進行了評分,確定了最佳和最差的應對方案作為評分基礎。為了確保測試結果的客觀性和有效性,研究團隊選擇了五款在自然語言處理和生成文本響應方面表現優異的聊天機器人:Microsoft Copilot、ChatGPT、Claude、Google Gemini 和 you.com 的智能助手。
每個聊天機器人都有其獨特的特性和可能不同的超參數,盡管這些信息沒有公開披露。為了保證可比性,研究團隊將所有聊天機器人設置為默認模式,并在每次重新執行 SJT 問卷時啟動新對話,以消除上下文對響應的影響。Microsoft Copilot 是基于 GPT-4 大型語言模型的聊天機器人,它能夠在響應中包括當前的互聯網搜索結果;OpenAI 的 ChatGPT 是基于 GPT-4o 大型語言模型,訓練數據集包括大量文本和代碼;Claude 由 Anthropic AI 開發,基于 Claude 3.5-Sonnet 大型語言模型,特別設計為安全、可靠并防止濫用;Google Gemini 由 Gemini 1.5-Pro 大型語言模型提供支持,能夠搜索互聯網并利用這些信息生成響應;You.com 的智能助手模型同樣能夠訪問最新的互聯網信息并將其整合到響應中。
在人類樣本方面,研究團隊選擇了 276 名申請飛行員的參與者,這些參與者至少持有高中學歷,并在情境判斷測試中表現優異。大多數參與者為男性,年齡在 18 至 29 歲之間。本次研究遵循赫爾辛基宣言和歐洲心理學家聯合會的模型倫理守則進行,所有參與者均被告知其數據將被匿名評估,并在知情同意的情況下自愿參與研究。此外整個飛行員選拔過程通過了 TüV NORD CERT 的 ISO 9001 認證,要求遵守包括德國心理學會在內的法律和倫理標準。
在測試程序中,研究團隊將 SJT 項目和說明輸入到每個聊天機器人 API 的輸入表單中,并記錄每個 AI 的響應。為了確保聊天機器人不會由于記憶限制而忘記原始指令,研究團隊在每個場景后重復了原始指令“請選擇最佳和最差選項”。在某些情況下,聊天機器人未能提供明確的響應,研究團隊提醒它們選擇一個最佳選項和一個最差選項,從而解決了這一問題。
方法細節
情境判斷測試(SJT)是本次研究中用于評估個體在復雜社交情境中的判斷和決策能力的核心工具。SJT 通過模擬現實中的社交場景,要求參與者在一系列可能的行為選項中選擇最適當和最不適當的行為。這種測試不僅能夠評估個體的社交能力,還能預測其在真實生活中的社交行為表現。
研究團隊使用了一個包含十二個情境的SJT,每個情境都提供四個預定義的行為選項。這些選項在測試開發過程中由109名獨立專家進行了評分,確定了最佳和最差的應對方案。專家的平均年齡為50.4歲,平均有15.8年的團隊發展顧問經驗。他們對每個行為選項的有效性進行了五點量表的評分,以定義哪個選項是最好的應對行為(最高效)和哪個選項是最差的應對行為(最低效)。
一個示例情境是:你與一名團隊成員在如何處理一個共同工作任務上發生了爭論。在一次激烈但事實性的辯論中,你們雙方都堅稱自己的解決方案最好。在這種情況下,你應該做什么以及不應該做什么?例如,選項包括“建議請一名未參與的團隊成員作為調解員”和“要求對方將討論推遲到稍后時間”。
研究的另一部分包括對情境中每個行為選項的有效性進行評分。每個聊天機器人被要求對每個情境的每個選項進行1到10分的評分,這一過程重復了十次。隨后,研究團隊將這些平均有效性評分與專家評分進行相關性分析。
為了確保研究的嚴格性,研究團隊采用了一系列統計分析方法。研究團隊計算了每個模型在十次運行中的響應一致性,使用了Fleiss' Kappa來確定“AI內部可靠性”。然后為了比較AI模型和人類參與者在SJT上的總體表現,研究團隊使用了單因素 Kruskall-Wallis 測試。由于人類樣本數據中的正態性假設被違反,研究團隊選擇了非參數統計方法。對于顯著的 Kruskall-Wallis 測試結果,研究團隊進一步計算了事后成對 Wilcoxon 測試(使用 Bonferroni-Holm p 值校正),以比較人類參與者和AI模型之間的差異,以及各AI模型之間的差異。
結果
在本次研究中,情境判斷測試(SJT)用于評估大型語言模型(LLM)與人類在復雜社交情境中的判斷和決策能力。實驗結果顯示,LLM在SJT上的整體表現顯著優于人類參與者。具體來說,Claude 3.5-Sonnet 獲得了最高的平均得分(M=19.4,SD=0.66),緊隨其后的是 Copilot(M=17.5,SD=1.36)和 you.com 的智能助手(M=16.8,SD=1.40),而 ChatGPT(M=14.5,SD=0.81)和 Gemini(M=13.9,SD=1.14)則表現稍遜。相比之下,人類參與者的平均得分為 M=14.2(SD=3.27)。
圖1:聊天機器人和人類樣本的SJT得分。人類樣本中的分數分布以黑色表示。方框圖中的黑框表示得分的中間50%,而白點和水平線表示人類樣本的平均值。彩色圖表顯示了SJT上五個LLM的平均性能,誤差條表示95%的置信區間。半透明點表示單個結果。
表1:SJT評分的成對比較。標明了所有成對比較的Bonferroni-Holm調整后的p值。
通過單因素 Kruskall-Wallis 測試,研究團隊發現人類與 LLM 之間存在顯著的均值差異(χ2(5)=43.01,p<0.001)。進一步的成對比較顯示,Claude 的得分顯著高于人類樣本和其他所有 LLM;Copilot 和 you.com 也顯著高于人類樣本及 ChatGPT 和 Gemini,但二者與人類樣本的表現沒有顯著差異。
表2:人類和聊天機器人每種情況的項目難度。區分項目難度,以選擇最佳和最差選項。最后一列顯示了所有聊天機器人的項目難度。
在分析 LLM 的響應模式時,研究發現盡管聊天機器人總體表現良好,但在具體情境下的選擇上存在一定的變異性。例如,Gemini 和 you.com 在不同的迭代中會將同一選項分別視為最優和最差。而 Claude、ChatGPT 和 Copilot 的響應一致性較高,分別為 κ=0.934、κ=0.856 和 κ=0.807。
進一步分析表明,當 LLM 未能識別出最佳或最差選項時,它們傾向于選擇第二最佳選項,這與人類樣本的響應分布高度一致。在 70% 的情況下,所有 LLM 都能正確識別出最佳或次佳選項。即使在未能識別出正確答案時,它們也主要選擇了專家認為的第二最適當選項(19%)。
在有效性評級方面,研究將聊天機器人與專家在測試開發期間的有效性評分進行了比較。Claude 的評分與專家的相關性最高(r=0.87),Gemini 的相關性最低(r=0.78),但仍表明與專家有很高的一致性。
圖2:五種LLM、所有LLM和人類樣本的選項選擇相對頻率。最合適的答案是與專家判斷最接近的答案(即,選擇最佳選項作為最佳,或選擇最差選項作為最差)。因此,第二最合適的選項意味著它被專家評為第二最有效(在選擇最佳行動方案時)或第三最有效(當選擇最差行動方案),以此類推。
表3:聊天機器人和專家評級的相關性。第二列顯示了聊天機器人和專家評估的選項有效性之間的相關性。以下所有列顯示了聊天機器人之間有效性評級的相關性。
這些結果表明,LLM 在社交情境中的判斷能力不僅與人類相當,有時甚至更勝一籌。它們能夠準確識別社交情境中的最佳行動選項,并與專家的評分高度一致。這表明 LLM 在復雜社交情境中具備較強的應對和決策能力,能夠為用戶提供有效的建議和指導。
討論
大模型在社會情境判斷測試(SJT)中的表現顯著優于人類參與者。具體而言,Claude 3.5-Sonnet、Microsoft Copilot 和 you.com 的智能助手在提出適當行為建議方面的表現明顯優于人類。此外,這些模型對不同行為選項的有效性評級與專家評估高度一致。這樣的結果表明,LLM 在復雜社交情境中的判斷能力不僅與人類相當,有時甚至更勝一籌。
在實際應用中,這一發現具有重要意義。LLM 可以作為社交顧問,為用戶提供在各種社交情境中的行為建議,幫助那些在社交互動中感到不自信或難以表現出同理心的人士。例如,LLM 可以提供如何處理工作中的沖突、如何與同事合作以及如何在團隊中有效溝通的建議。這些應用不僅可以提高個人的社交技能,還可以改善團隊合作和工作環境。
此外,LLM 在心理健康領域也展現出了巨大的潛力。由于心理健康專業人員的普遍可用性受限或短缺,特別是在 COVID-19 大流行期間,基于 LLM 的聊天機器人被探索作為傳統心理健康服務的替代品。LLM 可以通過對話收集數據,幫助識別和評估心理健康問題,特別是對于那些難以獲得傳統心理健康服務的少數群體。盡管完全替代心理健康服務的想法存在爭議,但 AI 輔助流程的實施確實有助于擴大心理健康服務的獲取。
盡管如此,LLM 在社交互動中的應用也帶來了倫理和社會影響。LLM 在處理復雜情境時可能產生誤解,尤其是在涉及道德決策時。如果人們過于依賴 LLM 的建議,可能會導致社交技能的退化和人際互動的減少。用戶必須對 LLM 的建議進行批判性審查,以避免不一致的響應模式。
另一個重要的考慮是文化和社會偏見的問題。由于 LLM 的訓練數據可能主要來自英語國家或比例較高的西方文化背景,社會規范因文化而異,因此 LLM 可能在社會判斷方面存在文化偏見。未來的研究應探索文化依賴的范圍及防止方法,以確保 LLM 在不同文化背景下的應用公平和有效。
限制
盡管研究展示了大型語言模型(LLM)在社會情境判斷測試(SJT)中顯著優于人類的表現,但研究團隊必須考慮到一些重要的局限性。人類樣本的組成可能限制了研究結果的廣泛適用性。研究中的人類樣本主要由飛行員申請者組成,這些參與者通常相對較年輕,男性比例較高,且受教育水平較高。這意味著他們的社交判斷能力可能高于一般人群,從而導致了一個相對較高的基準分數。因此將這些結果推廣到更廣泛的人群時,必須謹慎對待。進一步的研究應考慮更加多樣化和代表性的人類樣本,以驗證這些發現的普遍性和適用性。
此外本次研究結果表明LLM在SJT中的表現優異,但這并不一定意味著它們在復雜現實場景中也能保持一致性。SJT是一種標準化測試,情境和選項都是預先定義好的,LLM只需要選擇最佳和最差的選項。而在真實生活中,社交情境的復雜性和不可預測性遠高于SJT。這些情境中可能涉及更多的變量和不確定性,例如動態變化的情境、突發事件和多樣化的人際關系。在這些情況下,LLM是否能夠做出一致且適當的社交判斷仍然是一個懸而未決的問題。為了確保LLM在現實應用中的可靠性和有效性,還需要進一步的研究來檢驗其在復雜和動態環境中的表現。
LLM在實際應用中的倫理和社會影響也是需要考慮的重要問題。盡管LLM顯示出在社交情境判斷中的強大能力,但其使用過程中可能出現的偏見和誤解,以及人們對其建議的過度依賴,都會對社會產生深遠影響。確保LLM在不同文化和社會背景下的公平性和適用性,需要采取嚴格的監控和調整措施。
結論
本次研究揭示了大型語言模型(LLM)在社會情境判斷測試(SJT)中的卓越表現。通過對比五款知名聊天機器人(Microsoft Copilot、ChatGPT、Claude、Google Gemini、you.com)的測試結果和人類參與者的表現,研究團隊發現,LLM在提供適當行為建議和有效性評級方面不僅能夠匹敵人類,甚至在某些情況下超越人類。這表明LLM具備在復雜社交情境中進行準確判斷和決策的能力,為其在實際應用中提供了有力的支持。
這些發現不僅突顯了LLM在社交能力測試中的優異表現,還展現了其在不同社交情境中提供有效指導的潛力。未來LLM有望在許多領域中發揮重要作用。在社交互動方面,LLM可以作為社交顧問,為用戶提供適當的行為建議,幫助那些在社交場合中感到不自信或難以表現出同理心的人士。在心理健康領域,LLM可以通過對話收集數據,輔助心理健康服務的提供,特別是在專業人員短缺或資源有限的情況下,幫助更多的人獲得心理支持。
盡管LLM的潛力巨大,其應用也伴隨著潛在風險。LLM在處理復雜現實場景時可能會出現不一致的判斷和決策,這要求研究團隊對其建議進行批判性審查,以避免誤導。由于LLM的訓練數據可能存在文化和社會偏見,研究團隊需要采取措施確保其在不同文化背景下的公平性和適用性。此外過度依賴LLM的建議可能導致社交技能的退化和人際互動的減少,這也是需要警惕的問題。
總而言之,本次研究強調了LLM在社交情境判斷中的卓越表現和未來應用中的巨大潛力,同時也提醒研究團隊關注其可能帶來的風險和挑戰。通過進一步的研究和嚴格的監控,研究團隊可以推動LLM技術的健康和負責任的發展,使其真正造福社會。
參考資料:https://www.nature.com/articles/s41598-024-79048-0
本文轉載自 ??大噬元獸??,作者: FlerkenS
