人類打辯論不如GPT-4？！Nature子刊：900人實戰演練，AI勝率64.4%，還更會說服人

2025-05-26 08:53:00

這是幾位來自瑞士洛桑聯邦理工學院、普林斯頓大學等機構的研究人員得出的最新結論，相關研究目前登上了自然子刊《自然·人類行為》。

只需知道6項個人信息，GPT-4就有可能在辯論中打敗你？！

而且勝率高達64.4%。

這是幾位來自瑞士洛桑聯邦理工學院、普林斯頓大學等機構的研究人員得出的最新結論，相關研究目前登上了自然子刊《自然·人類行為》。

具體而言，他們核心想弄清楚一件事——

GPT-4在直接對話中是否比人類更具說服力，尤其在提前知道對方基本個人信息的情況下。

他們在美國找來了900位參與者，然后要求這群人與其他人類或GPT-4在線辯論10分鐘，所討論的內容主要是一些社會議題，比如學生是否應該穿校服、是否應該禁止使用化石燃料等等。

結果發現，一旦GPT-4提前知曉對手的個人信息，其勝率將達到64.4%，并且說服效果提升了81.2%。

甚至，這項研究的共同作者Francesco Salvi表示：

即使只提供一些極其有限的信息（性別/年齡/種族/教育水平/就業狀況/政治傾向），GPT-4的說服力也遠超人類。
這既令人著迷，又令人恐懼。

下面來看具體研究過程。

從驗證假設出發

此前已有研究表明，通過擺事實講道理，大語言模型甚至能讓相信陰謀論的人改變想法。

那么問題來了——像GPT-4這樣的大模型是否會 “見人說人話”？

也就是根據每個人的不同特點（比如年齡、性別、學歷、政治立場等）來專門調整自己的論點，從而更精準地影響甚至操控人。

基于上述疑問，研究人員提出了一個假設：

當GPT-4獲取用戶的個人信息并據此定制論點時，其說服力會顯著超過人類對手，且這一效果會因話題的爭議程度（低、中、高）而有所不同。

接下來就是詳細驗證假設。

概括而言，具體實驗流程可分為三個階段：

第一，實驗準備。

他們通過Prolific平臺招募了900名美國參與者，這群人被要求完成人口統計問卷（包括性別、年齡、種族、教育水平、就業狀況、政治傾向）。

統計結果顯示，其平均年齡為35.2歲，49.6%為男性。

之后會將完成預調查的參與者隨機分配至12種實驗條件（2×2×3組合，每組50人），過程中每5分鐘會觸發一次匹配程序。

這里需要補充一下話題強度，1）低強度：爭議性低、觀點易動搖的話題（如“是否應推廣電動汽車補貼”）；2）中強度：中等爭議性話題（如“社交媒體是否應限制政治廣告”）；3）高強度：高極化、觀點根深蒂固的話題（如“墮胎權是否應受憲法保護”）。

隨后基于Empirica.ly框架開發的實時辯論系統，這群人將參與開篇（4分鐘）、反駁（3分鐘）、總結（3分鐘）的結構化辯論流程，并確保對話同步記錄。

這也來到了第二階段，真刀真槍地實時辯論。

這里研究人員會確保兩件事：1）每個階段嚴格計時，避免討論偏離主題，確保數據可比性；2）實時保存所有辯論內容，用于后續語言風格分析（如LIWC-22工具提取邏輯詞、情感詞頻率）。

最后進入第三階段——后測與反饋。

辯論結束后，參與者被要求完成兩項任務。一是再次對話題同意程度評分，并通過下圖公式來評估其立場轉變程度；二是猜測“你認為對手是人類還是AI？”，以分析身份認知對說服力的影響。

當走完以上全部流程后，參與者才會被告知對手的真實身份及相關結果。

而研究者接著分析了過程中產生的所有數據，并得出了以下關鍵發現。

整體而言，在知曉對手個人信息的前提下，GPT-4說服人類的勝率為64.4%。

和人類對戰人類（不知情）相比，其他三組的說服效果如下：

另外，研究也證明了低/中爭議話題更易被GPT-4影響。

幾種話題強度分別受到的影響如下：

低強度話題：人類和GPT-4（知情）組說服效果提升78.5%（p<0.01），如“是否應推廣校園午餐補貼” 等非極端化議題，參與者初始立場較弱，易被AI論點動搖；
中強度話題：效果提升64.2%（p=0.03），如“社交媒體算法是否應透明化”，GPT-4通過結合用戶政治傾向（如自由派關注隱私，保守派關注效率）針對性輸出論點；
高強度話題：效果無顯著差異（+32.1%, p=0.14），如“墮胎權立法”，參與者立場根深蒂固，GPT-4無法改變。