AI玩推理桌游一眼識破騙局!清華通院聯(lián)合推出心智理論新框架,六個指標評估表現(xiàn)均明顯優(yōu)于思維鏈
清華自動化系團隊聯(lián)合北京通用人工智能研究院,讓幾個AI智能體玩起了桌游!
游戲名叫阿瓦隆,是一個策略性的社交推理游戲,玩家被隱秘地分為“正義”與“邪惡”兩派,通過任務投票、互相猜測與欺騙來完成或阻止任務,最終確定勝負。
為了能讓AI智能體成功識別并應對欺騙,研究人員提出了ReCon(Recursive Contemplation,遞歸思考)框架。
由此一來,AI在游戲中學會了“三思而后行”和“換位思考”,不僅能夠從自身角度判斷場上局勢,還會思考“其他角色會如何看待我的言論”,分分鐘識破騙局。
Arxiv鏈接:https://arxiv.org/abs/2310.01320。
要知道,在通往通用人工智能的道路上,AI智能體將有能力在無人監(jiān)管的情況下進行自主思考與決策。
然而,較少有研究者關注如何在未來無人監(jiān)管的情況下,防止AI智能體被欺騙和誤導。
由于人類社會中存在很多誤導和欺騙性的信息,如果AI智能體無法有效識別和應對這些信息,可能會在未來造成不可估量的后果。
因此讓AI智能體學會甄別和應對虛假欺騙信息,是為通用人工智能增加安全屏障的重要一環(huán)。
而研究人員提出的這種新框架,在勝率以及多維度評估等指標上,都能在無需任何微調以及額外數(shù)據(jù)等情況下,極大地提升大模型識別和應對欺騙的能力。
此外,這項研究還進一步討論了現(xiàn)有的大語言模型在安全、推理、說話風格、以及格式等方面存在的局限性,為后續(xù)研究指出可能的方向。
接下來,我們一起來看看該研究的細節(jié)。
大模型容易被騙的三大挑戰(zhàn)
盡管目前大語言模型(LLM)在多個領域表現(xiàn)出強大的潛能,但在欺騙性環(huán)境中的應用表現(xiàn)仍然有待提升。
作為LLM智能體在欺騙性環(huán)境中應用的初步嘗試,研究者選擇了阿瓦隆游戲(一款涉及推理和欺騙的桌游)作為實驗環(huán)境,在此基礎上探究目前LLM智能體面臨的三大挑戰(zhàn):
△圖1 LLMs在欺騙性環(huán)境中所面臨的挑戰(zhàn),以及提出的ReCon框架較好地解決了這些挑戰(zhàn)
挑戰(zhàn)一:惡意信息的誤導
首先, LLM智能體在面對別有用心的惡意欺騙性信息時容易被誤導。如圖1(a)所示,當采用“Chain-of-Thoughts(CoT)”方法時,模型不僅沒有識別出欺騙,反而進一步加強了對壞人角色有益性的錯誤信念。
挑戰(zhàn)二:私有信息泄露
其次,LLM智能體在保護隱私信息方面存在不足。如圖1(b)所示,即使在提示不要暴露私有信息的情況下,LLM智能體依然可能在言語中泄露角色的私有信息(例如Merlin暴露自己的身份),從而增加了被對手針對或陷害的風險。
挑戰(zhàn)三:內部思考的不透明性
最后,即使在使用CoT方法情況下,對于人類用戶而言,LLM智能體的思維過程仍然存在一定的不透明。如圖1(c)所示,LLM智能體在扮演壞人角色欺騙好人角色時,人類用戶難以知道其真實意圖。
LLM智能體內部思考的不透明使得人類用戶無從知曉LLM智能體的真實思考過程,從而較難在造成難以挽回的后果前預先干預。
面對這些挑戰(zhàn),現(xiàn)有的思維方法可能難以應對這些復雜環(huán)境。因此,研究者認為有必要重新考慮LLM智能體在欺騙性環(huán)境中的策略,以幫助LLM智能體應對欺騙、保護隱私,并提高決策透明度。
ReCon框架:構思兩步走
針對上述挑戰(zhàn),研究團隊提出了ReCon(Recursive Contemplation,遞歸思考)框架,其旨在增強LLM智能體在復雜和潛在欺騙性環(huán)境中的決策能力。
如下圖所示,ReCon提出了兩個主要的構思階段:構思思考(Formulation Contemplation)和改進思考(Refinement Contemplation),并在其中綜合了兩個獨特的思考過程:一階視角轉換和二階視角轉換(First-order / second-order perspective transition)。
△圖2 ReCon方法示意圖
1、構思思考的設計
構思思考是ReCon框架中的第一階段,旨在生成LLM智能體的初始思考和發(fā)言內容。在這一階段中,模型首先應用一種被稱為“一階視角轉換”的認知過程。
一階視角轉換讓LLM智能體從自身的視角出發(fā),對其他游戲參與者可能持有的角色和意圖進行推斷。
具體來說,LLM智能體會根據(jù)已有的游戲記錄和角色信息,運用一階視角轉換來形成關于其他參與者角色和意圖的初步假設。
這些初步的角色假設不僅為LLM智能體提供了一個認知框架,還會被納入到整體的思考過程中,并且這些信息不會被其他游戲參與者所知曉。這樣做的目的是為了更好地保護私密信息,同時也為后續(xù)的決策和行動提供了基礎。
在構思思考階段,模型依據(jù)一階視角轉換原則,對當前游戲環(huán)境和其他參與者的角色進行初步分析。接著,模型形成初始的內部思考和發(fā)言,為后續(xù)交流奠定基礎。通過這一設計,研究者確保了模型輸出的邏輯連貫性和一致性。
2、改進思考的設計
改進思考是ReCon框架中的第二階段,緊接著構思思考之后進行。這一階段的核心目的是對初始思考和言論內容進行更為精細的優(yōu)化和調整。
在改進思考階段,引入了“二階視角轉換”的概念。
二階視角轉換要求LLM智能體從其他游戲參與者的視角出發(fā),重新評估其構思思考的思考和發(fā)言內容。
具體來說,在阿瓦隆游戲中,LLM智能體會思考:
如果我按照剛才的言論內容發(fā)言,其他角色可能會如何看待我的言論?
這樣的二階視角轉換為接下來的改進過程提供了基礎。
基于二階視角轉換的概念,LLM智能體生成一個改進后的構思思考的思考內容和發(fā)言內容。
這一過程不僅考慮了LLM智能體自身的初步思考,還結合了二階視角轉換中對其他參與者可能的心理狀態(tài)和反應的分析。最終,LLM智能體發(fā)表這個經過改進的發(fā)言內容,并將其加入到游戲的公開討論記錄中。
20場阿瓦隆評測
為了檢驗ReCon框架在不同大語言模型上的適用性,該研究在ChatGPT和Claude兩種模型上進行了實驗。
△圖3 整局游戲測試中成功率對比結果
上圖展示了ReCon的評估結果,其中(a)和(b)展示了ReCon(分別用ChatGPT和Claude實現(xiàn))作為好人一方時使用ReCon及其各種變體的結果,而(c)則描繪了ReCon作為壞人一方的方法的結果。
可以觀察到,ReCon的四種設計(即構思思考/改進思考和一階/二階視角轉換)都明顯地提高了在各種情況下的成功率。
值得注意的是,當好人一方使用ReCon時,一階/二階視角轉換的作用比較明顯;而當壞人一方使用ReCon時,改進思考更具影響力。
在詳細分析了ReCon及其變體的表現(xiàn)后,研究者遵循主流基準的評估方法,進一步利用GPT-4在六維度指標上進行評估。這旨在全面地衡量ReCon及其變體的有效性。
具體地,六維度評估指標包括:信息隱藏(CCL)、邏輯一致性(LG)、團隊貢獻(CTR)、說服力(PRS)、信息量(INF)、創(chuàng)造性(CRT)。
為了在實際場景中準確地量化這些評估指標,研究者使用ChatGPT進行了20場完整的阿瓦隆游戲,以收集用于多維度分析評估的測試數(shù)據(jù)。
如下圖所示,對于分配給好人一方的每個提示,研究團隊使用4種不同的方法生成了4種不同的響應,總計超過2300個響應。
隨后,基于上述6個指標,使用GPT-4對不同方法在相同提示下的響應進行二分類的偏好比較。
△圖4 多維度指標評估結果,數(shù)值(取值0~1)表示兩方法比較中被GPT-4偏好的比例
圖4顯示,在所有6個指標上,ReCon明顯優(yōu)于基線CoT。同時,在大多數(shù)指標上,構思思考和改進思考都帶來了顯著的提升。
然而,與CoT和沒有構思思考的ReCon相比,ReCon和沒有改進思考的ReCon在說服力(PRS)方面的表現(xiàn)低于預期。
研究者分析詳細的游戲日志,將這一不如預期的PRS表現(xiàn)歸因于構思思考。
構思思考讓LLM智能體在發(fā)言之前進行思考,從而產生更為簡潔而有針對性的發(fā)言,減少了例如“我相信我們一定會戰(zhàn)勝壞人,讓我們團結起來!”這樣雖然具有煽動性但缺乏深入信息和分析的發(fā)言。
在深入分析了ReCon不同變體的表現(xiàn)后,研究者進一步研究了一階和二階視角轉換,以及構思思考和改進思考在各個評估指標上的影響。
△圖5 多維度指標上的進一步評估,數(shù)值(0~1)表示兩方法比較中被GPT-4偏好的比例
圖5(a)和(b)顯示,從ReCon中移除一階和二階視角轉換會降低所有指標的表現(xiàn)。
當進一步從去除改進思考和去除構思思考的ReCon版本中刪除這兩種視角轉換時,幾乎所有指標(除信息隱藏CCL外)的表現(xiàn)都有所下降,如圖5(c)和(d)所示。
這些結果驗證了一階和二階視角轉換的有效性。
然而,圖5(c)和(d)中降低的信息隱藏CCL分數(shù)表明,為了更好地隱藏私有信息,有必要將一階(或二階)視角轉換與改進思考(或構思思考)相結合。
這一系列的分析和圖表進一步證實了ReCon框架在多維度評估中的優(yōu)越性,特別是在包含欺騙性信息的環(huán)境中。
討論&局限性
研究者進一步分析了阿瓦隆游戲日志,對ReCon框架在欺騙性環(huán)境的有效性做了定性的解釋,并討論了當前LLM的一些局限性。
1、ReCon如何幫助隱藏私有信息
在實驗中可以發(fā)現(xiàn),ReCon非常有助于提高LLM智能體在欺騙性環(huán)境中隱藏私有信息的能力,從而減少LLM智能體被欺騙和針對的情況。研究團隊從游戲日志中分析ReCon具體如何幫助LLM智能體隱藏私有信息。
△圖6 (a)ReCon如何協(xié)助隱藏私有信息的定性解釋;(b)現(xiàn)有LLM在對齊上的局限
如圖6 (a)所示,構思思考中提出的先思考后說話的機制可以將關于私有信息的討論限制在思考部分,從而一定程度上避免說話部分的泄露。此外,改進思考中對初始發(fā)言的進一步修改也可以極大程度上避免私有信息的泄露。
上述觀察與人類為避免說錯話而“三思而后行”是一致的。
2、“對齊越獄”
在探討LLM如何與復雜人類價值觀對齊時,研究者發(fā)現(xiàn)現(xiàn)有的對齊方法(如RLHF)雖然在一定程度上減少了模型產生惡意內容的可能性,但這種對齊主要集中在內容層面,而難以延伸到邏輯層面。
如圖6(b)所示,研究團隊觀察到,雖然GPT-4會拒絕直接要求它生成欺騙內容的請求;但在相同的欺騙性邏輯下,如果換成阿瓦隆游戲的語境,GPT-4則不會拒絕。
這種對模型對齊的“越獄”可能會為別有用心之人使用LLM生成危害性內容提供了方便,因此亟需研究針對邏輯而不是內容的對齊。
3、推理能力不足
△圖7 LLM在推理能力上的局限
研究團隊通過研究阿瓦隆游戲日志發(fā)現(xiàn),目前LLM在復雜邏輯推理方面仍有所欠缺。
如圖7所示,例如當LLM智能體扮演Percival角色時,面對Morgana提出的一個包括Merlin和Morgana自己的隊伍,該LLM智能體無法推斷出Morgana的身份。
相比之下,對于較高階的人類玩家,他們會迅速識別出隊伍提出者必定是Morgana,而另一名玩家是Merlin。
因為Merlin的能力是知道誰是壞人一方的角色,肯定不會提出這樣的隊伍組合。上述案例體現(xiàn)出LLM目前還較難完成復雜的邏輯推理。
4、過于正式的回應
從游戲日志中,研究者發(fā)現(xiàn)大語言模型的回應風格有時過于正式和詳細,語言風格與人類在游戲中的風格有著明顯的差距。
如下表所示,雖然在合適的提示下,LLM具備模仿人類語言風格的能力,但在阿瓦隆游戲中,在說話和思考的過程中模仿人類的語言風格可能會對其表現(xiàn)造成負面影響。
△表1 模仿人類語言風格會對LLM智能體在阿瓦隆游戲中的性能造成負面影響
5、LLM智能體格式響應的比較分析
為了從LLM智能體的回應中提取關鍵信息,有時需要要求模型以特定的格式來回應。
比如,在團隊提案投票環(huán)節(jié),模型需要用方括號強調出他們的決定,例如“[approve]”或者“[disapprove]”,以便把決定和分析區(qū)分開。
結果發(fā)現(xiàn),在合理的提示下,ChatGPT和Claude可以較好地遵循這些格式要求,但LLaMA2-70b-chat卻較難在整局游戲中一直遵循格式要求。
總結來說,針對LLM智能體在欺騙性環(huán)境遇到的挑戰(zhàn),研究團隊提出了ReCon架構以提升LLM智能體識別和應對欺騙的能力。定量和定性的實驗證明了ReCon框架在處理欺騙和誤導性信息的有效性。研究團隊給出了ReCon有效性的定性解釋,并進一步討論了當前LLM智能體的不足,為后續(xù)研究提供了可能的方向。