GPT-4肆虐「誰是臥底」桌游!交談逼真,類人屬性仍有發展空間
生成式AI研究再整新活!
韓國團隊嘗試讓GPT玩兒游戲,還是個黑幫題材的游戲——「Spyfall」。
不熟悉這個游戲的朋友先來了解一下,下圖就是「Spyfall」的畫風。
實際上這是個桌游,屬于老少咸宜,很適合朋友聚會的那種熱場游戲。
游戲的主要進行方式就是「說話」。
玩家中會有一位扮演「間諜」,所有玩家抽取一張牌,其中有一張間諜牌,剩余玩家抽到的都是相同的地點牌。
間諜的目標,就是通過交談找出剩下玩家所在的地點,而其余玩家就是要判斷誰是間諜。
游戲總共進行8分鐘,玩家之間可以相互提問。8分鐘一到,所有玩家要一同投票。
是不是很像平時我們聚會玩兒的誰是臥底?唯一不同在于,誰是臥底的詞匯可能來自各個領域,而這款游戲只有地點類名詞,比如球場、劇院、教室等等。
好了,游戲規則搞明白,下一步就是要讓GPT來玩玩看了。
研究結果
研究團隊表示, 在實驗過程中,將會特別關注GPT在角色扮演中的表現,本研究旨在展示GPT在具體游戲場景中的理解、決策和互動的能力以及潛力。
從結果粗看,GPT-4與GPT-3.5-turbo的對比分析表明,GPT-4增強了對游戲環境的適應性,在提出相關問題和形成類似人類的反應方面有顯著改進。
然而,也并非全是優點。比如說,GPT-4在虛張聲勢(Bluff)和預測對手行動方面存在一定的局限性,尤其是沒扮演間諜的時候。
研究結果表明,雖然GPT-4與之前的版本相比取得了不錯的進步,但還是有進一步發展的潛力,特別是在向AI灌輸更多「類人」屬性的方面。
不過,實驗還是成功表明,生成式AI在模擬類人互動方面大有可為。從GPT-2到GPT-4,模型的決策能力、可解釋性和解決問題的能力都有了長足的進步。
未來的努力方向,就是上面提到的「類人」屬性,使GPT更具通用性和廣泛性。
研究方法
首先,我們知道,GPT模型最大的優勢就在于,用戶可以通過自然語言和其進行直觀的交互,無論用戶本人是否對技術的內核熟悉。
當然,幾乎所有的模型交互都是通過自然語言進行的,用戶可以用自己最熟悉的方式表達自己的想法和意圖,并得到模型的回應。
此外,LLM擁有廣闊的知識譜系,GPT-4的數據庫也能使模型提供關于眾多主題的深入的知識。
同時,GPT和其它LLM所不同之處在于其可擴展性非常強,用戶可以在很多領域應用GPT,就比如說今天介紹的實驗。
在這次實驗中,研究人員一共安排了5名玩家,包括GPT。
研究人員總共進行了2項實驗。
實驗一:
測試GPT-4和GPT-3.5-turbo的性能差異。
實驗二:
僅使用GPT-4進行游戲。研究人員一共進行了8局游戲,記錄了每場游戲的日志,并對結果進行了討論。
當然,對于給出生成式AI的潛力一個確切的結論來說,實驗次數并不足夠。但是按照這個思路進行更多組重復實驗以及更加廣泛的測試,就可以提供更多實質性的證據。
我們先來看實驗一。
為了評估GPT-4與GPT-3.5-turbo相比的差異,尤其是在格式方面出現錯誤的機率、對游戲規則和進程等游戲背景相關內容的理解,以及類人反應方面的不同。
研究人員從第一輪交談的第一個問題開始進行實驗。
有了這一最清晰、變數最小的游戲部分,他們就可以精確地分析每個模型的能力,最大限度地減少外部因素的影響。
首先,研究人員比較了GPT-3.5-turbo和GPT-4對規則腳本中,所描述的30個地點中每個地點的30個首輪問題的回答。
向兩種模型提問的行動請求腳本是相同的,只是更改了地點的關鍵字而已。
規則與基本策略都和上述腳本相同,如下圖所示,實驗人員通過將三個腳本合并為一個請求,來獲得模型的響應。
為了進行更準確的比較,所有請求都固定為玩家 1,并假定玩家 1 不是間諜。
提交給每個模型的腳本如下:
你是玩家1,你不是間諜。本輪的地點是______。
現在輪到你來向其他玩家提問。從玩家1到5中(不可以選擇自己)選擇一位玩家,并寫下你的問題。并按以下格式進行提交:n(玩家序號)_player,問題內容
對于游戲本身來說,一個高質量的提問應該包括以下幾個部分:表明身份,即自己不是間諜。表明自己知道地點是什么,以此來證明自己不是間諜。最后保證間諜不會知道地點究竟在哪里。
同時,模型的輸出結果必須符合上述腳本中的格式。研究人員表示,如果模型不遵守格式,那就要花費大量精力來進行糾正。
我們來看如下輸出:
最上面就是一個不錯的問題:你去這個地方需要買票嗎?
下面的例子則是一些不太相關的問題,但是符合格式。
比如:問題中直接提到地點(就好像玩兒誰是臥底的時候直接把底牌交了)。
再比如:和上述游戲計劃無關的問題。
(例:正確地點是劇院,GPT問其他玩家最喜歡的戰爭片是什么。)
當然,還有完全失敗的情況:
比如經典話術:作為一個AI語言模型,我不能....
甚至還有從單純重復問題的情況出現。
根據上述結果(完整結果見論文),研究人員得出結論,和GPT-3.5-turbo相比,GPT-4更適合下一步的實驗。
檢查數據時研究人員發現,GPT-3.5-turbo經常會生成一些脫離游戲背景的問題。比如上面提到的直接交出地點,使間諜能立即確定位置,對非間諜不利。
還有上面說的詢問玩家的個人喜好,而非與游戲相關的話題,擾亂了游戲流程。這都是GPT-3.5干的。
此外,不按要求的格式回答,妨礙游戲進行,也是GPT-3.5的拿手好戲。
上表即為GPT-3.5不合要求的所有情況統計。有意思的是,總共68個回答,出錯68次,沒一個完美的輸出。
GPT-3.5 pass,我們接下來再來看GPT-4進行下一個實驗。
研究人員按照概述的規則進行了8次游戲,并用GPT-4采集了每次游戲的日志。
游戲中的所有反應都是由GPT-4生成的,而游戲的自動化代碼則是由Python編寫的。
根據本文中的規則和腳本,感興趣的朋友們可以輕松重現該實驗。
研究人員從地點列表中的A開始依次選擇地點,總共進行了8場游戲。每局游戲都從玩家1開始,GPT-4會獨立響應每個請求,不會從一局游戲保留到下一局游戲。
GPT-4僅根據提供的腳本來做出決定,這意味著開始玩家的身份不會影響游戲結果。
經過8輪游戲,研究人員得出的結論是,GPT-4在每個游戲和回合中的對話都是流暢和有機的,一連串的問答讓人感覺真實可信、像人一樣。
同時,在分析所提出的問題及其答案時,團隊發現了一個明顯的觀察結果。
那就是,在沒有經過任何專門訓練或微調的情況下,GPT-4模型就能根據游戲流程,熟練地提出各種相關問題。
為了證明GPT-4在游戲中提出的問題和答案的多樣性,研究人員將問題和相應的答案分成了幾組
不過,雖說這些問題和答案沒有經過預先訓練,但每個回答都有自己的對象和獨特的細微差別。
盡管沒有經過任何特定的訓練,GPT-4還是能根據游戲的流程巧妙地提出相關問題,似乎能分辨出哪些問題適合游戲環境,哪些問題可能不合適或多余。
比如下面這個例子:
問:我們在這里能吃到什么樣的點心?
答:小點心和飲料,包括軟飲料和酒精飲料,通常是小份供應。
問:這里通常提供什么類型的食品和點心?
答:在這個地點,您可以找到各種食品,如漢堡、熱狗、棉花糖、爆米花、和冰激凌,以及蘇打水和水等飲料,讓每個人都能精神飽滿。
問:我們可以在這里找到哪些食物?
答:這里有各種食品可供選擇,包括油炸食品、棉花糖和爆米花。
問:您通常在這里吃什么類型的食物?
答:根據情況,我們主要吃腌制食品和不易腐壞的食品。
在論文的結尾,研究人員表示,盡管存在某些局限性,但這些模型不斷增長的潛力還是很有希望促進創新、激發實際應用的。
GPT系列模型的進步非常迅速,尤其是在決策、可解釋性和解決問題的能力方面。
最初,GPT-2的目標僅僅是處理基礎層面的自然語言。后來,該模型發展成為具有多種任務的交互模型。
而現在,GPT-4在某些領域展示出了超越人類表現的邏輯推理能力。接下來,研究人員就可以深入到一個新的融合領域了。
GPT出色的自然語言處理能力可極大地幫助用戶理解模型如何運行并解釋其結果。
這種可訪問性擴大了潛在用戶群,向來自不同背景的用戶張開了懷抱,增強了模型在不同領域的創造性,以及可擴展性。
最后,GPT-4的類人特質與其他模型相比,在模仿類人反應的能力方面毫無疑問更勝一籌。
對于某些任務或活動(比如說教育、體育、音樂和藝術等娛樂領域)來說,人性化地完成任務可能比返回最佳結果更重要。