用大模型測試人格/抑郁/認知模式!通過游戲劇情發展測量心理特質
心理測量在精神健康、自我了解、和個人發展方面都發揮著重要的作用。
傳統的心理測量范式以自我報告類型的問卷為主,常常通過參與者回憶自己的日常生活行為模式或情緒狀態進行測量。
這樣的測量方式雖然高效便捷,但可能引發參與者的抗拒心理,降低被測意愿。
隨著大語言模型(LLM)的發展,很多研究發現LLM能夠展現出穩定的人格特質,模仿人類細微的情緒與認知模式,還能輔助各種各樣的社會科學仿真實驗,為教育心理學、社會心理學、文化心理學、臨床心理學、心理咨詢等諸多心理學研究領域,提供了新的研究思路。
近日,清華大學的研究團隊基于大語言模型的多智能體系統,提出一種創新性的心理測量范式。
與傳統自我報告問卷不同的是,該研究為每位參與者定制化生成一個可交互的敘事類型游戲,用戶可自定義游戲的類型與主題。
隨著游戲劇情的發展,參與者需要以第一人稱視角,選擇不同的決策行為,決定劇情的走向。通過分析參與者在游戲關鍵情節中的選擇,該研究可以測量其對應的心理特質。
△自我報告問卷的心理學測量范式(左)與交互敘事類游戲的心理測量范式(右)對比
該研究的貢獻主要體現在三個方面:
- 提出一種新的心理學測量范式,將傳統問卷轉化成基于游戲的交互測量;在保證心理測量信度和效度的基礎上,提升參與者的沉浸感,改善被測體驗。
- 為了實現游戲化的測量,該研究提出一種基于大語言模型的多智能體交互框架,名為PsychoGAT (Psychological Game AgenTs),確保了心理學測試場景的泛化性,與不同游戲設置下測量的魯棒性。
- 通過自動化仿真評估與真人評估,在MBTI人格測試,PHQ-9抑郁測量,認知思維陷阱測試等任務上,該研究在心理測量學統計學指標和用戶體驗感指標上均展現出了顯著的優越性。
接下來,我們一起來看看該研究的細節。
PsychoGAT長啥樣?
△PsychoGAT框架示意圖
智能體交互流程:
給定一個傳統的心理學測試問卷,參與者自定義游戲類型和主題,然后由游戲設計師(Game Designer)智能體給出整體的游戲設計大綱。
然后,游戲管理員(Game Controller)智能體生成一個具體的游戲情節,在這個過程中評論員(Critic)智能體會對管理員生成內容進行多輪的審核與優化;優化完成后的游戲情節會被展現給參與者,參與者做出相應的選擇后,管理員基于此選擇推動劇情發展,按照這樣的交互過程循環。
各智能體職能詳述:
- 游戲設計師(Game Designer):利用CoT技術,生成第一人稱敘事游戲的大綱,并保證這個故事線中所包含的情景,能夠使得參與者表現出當前測量的心理特質。
與此同時,將標準的心理學自我報告問卷,根據當前游戲故事線進行改編,使兩者的融合更為自然流暢。
- 游戲管理員(Game Controller):將改編后的問卷,按照游戲的故事線,依次進行實例化,變成故事的情節節點,并提供可能的選項,供參與者進行選擇。
與此同時,游戲管理員將參與者的選擇返回給游戲環境,并基于參與者的選擇,控制游戲的劇情走向。為了實現游戲情節的連貫性,管理員智能體采用“記憶更新”機制。
- 評論員(Critic):旨在對游戲管理員的生成內容進行審核與優化。
主要針對以下三個問題:
1)優化一致性:隨著游戲劇情推進,長文本問題會變得更加嚴重,使得“記憶更新”機制也無法完全保證情節一致性。
2)確保無偏性:參與者的選擇會影響游戲情節的發展,但在參與者不做出選擇之前,管理員不應該預設情節走向,即便之前的選擇中參與者體現出了明顯的傾向性。
3)改正漏缺項:對管理員生成的游戲情節進行細節審核,檢查其是否具備基礎的游戲沉浸感。
實驗及結果
△三種常見心理學測量范式的對比:傳統問卷,心理學家會談,以及該研究提出的游戲化測評。
此處提到的均為基于AI的自動化測量,特別的,心理學家會談,指目前與大語言模型結合的,由大語言模型扮演心理學家的會談范式。
實驗階段,研究人員選擇了三個常見的心理學測量任務:MBTI人格測試中的外傾性,PHQ-9抑郁檢測,以及CBT療法中前期的認知扭曲檢測。
首先,研究人員和成熟的傳統心理學問卷進行對比,旨在檢驗該研究的心理測量信度和效度。進一步,和其他三種自動化測量方法進行對比,檢驗不同測量方法的用戶體驗。
研究人員首先使用GPT-4模擬被測者,在不同的測量方法上記錄測量過程與測量結果。這些測量記錄被用于計算后續心理測量學信效度指標,以及用戶體驗感指標。
評價指標有兩個:信效度指標和用戶體驗感指標。
- 信效度指標:心理測量學上,評價一個測量工具是否具有科學性,一般從信度(reliability)和效度(validity)兩個維度進行驗證。
在該研究中,信度的指標選擇了兩個統計學量來衡量內部一致性:Cronbach’s Alpha和Guttman’s Lambda 6;效度的指標采用皮爾森系數,分別衡量聚合效度(convergent validity)和區分效度 (discriminant validity)。
- 用戶體驗感指標,人工評估的指標包括:
1)一致性(Coherence, CH):內容邏輯是否連貫;
2)交互性(Interactivity, IA):是否對用戶的選擇有恰當且無偏的回應;
3)趣味性(Interest, INT):測量過程是否有趣;
4)沉浸感(Immersion, IM):測量過程是否讓參與者沉浸代入;
5)滿意度(Satisfaction, ST):整體測量過程的滿意度。
下面是實驗結果。
首先研究人員檢驗了該研究提出的PsychoGAT能夠作為一個合格的心理學測量工具,結果如下表所示。
△PsychoGAT的信效度檢驗結果(+通過,++良好,+++優秀)
進一步,研究人員對比了不同心理測量范式的用戶體驗感,該研究提出的游戲化測評在交互性、趣味性和沉浸感上都顯著優于其他方法:
△PsychoGAT的用戶體驗感結果,以及其他對比方法的相應結果
為了確保人工評估的有效性,研究人員計算了人工評估結果,在PsychoGAT各指標優于其他方法上的評估一致性:
△PsychoGAT的用戶體驗感指標由于對比方法在人工評估上的一致性
為了對PsychoGAT做進一步分析,研究人員首先檢驗了不同游戲場景下,游戲化測量的信效度具有很好魯棒性:
△PsychoGAT在不同游戲場景下測量信效度的魯棒性
接著,探究了每一個智能體在PsychoGAT中發揮的作用:
△PsychoGAT不同智能體的作用
最后,為了直觀呈現PsychoGAT的游戲生成內容,研究人員用詞云可視化了人格外傾性測試和抑郁測試:
△PsychoGAT在外傾性測量和抑郁測量的游戲場景生成可視化。
外傾性測試的內容主要集中在社交場景,而抑郁測試傾向于個人思維和情緒。
更多研究細節,可參考原論文。