成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

【LLM】大語言模型的情感理解和共情能力

發布于 2024-6-4 09:09
瀏覽
0收藏

【LLM】大語言模型的情感理解和共情能力-AI.x社區

一、結論寫在前面


同理心是促進親社會行為的基礎,可以通過分享個人經歷的故事來喚起。雖然同理心受到敘事內容的影響,但直覺上,人們也通過敘事風格對故事的講述方式做出反應。然而,同理心與敘事風格之間的關系尚未完全明了。


論文通過大型語言模型(LLMs)和大規模眾包研究實證檢驗并量化了這種關系。論文引入了一種新穎的理論基礎分類法,HEART(人類同理心與敘事分類法),該分類法闡述了敘事風格中的元素,這些元素能夠引導聽眾對故事講述者產生同理心。    

論文展示了LLMs在從HEART中提取敘事元素方面的表現,表明使用論文的分類法進行提示能夠產生合理的、達到人類水平的注釋,超越了先前基于詞匯的方法。為了展示論文分類法的實證應用,論文通過一項大規模眾包研究收集了一個包含2,624名參與者對故事同理心評價的數據集。

論文發現,通過LLMs提取的敘事元素,特別是情感的生動性和情節的豐富度,能夠闡明敘事風格如何培養對個人故事的同理心。論文的工作表明,這類模型可以用于敘事分析,從而獲得以人為中心的社會和行為洞察。


二、論文的簡單介紹

2.1 論文的背景


同理心是一種基礎的心理過程,驅動著許多親社會功能,通常通過講故事和分享個人經歷來傳達。故事喚起的同理心反應受到故事內容之外的因素影響——傳遞方式、情境和讀者特征都對此有所貢獻。             


【LLM】大語言模型的情感理解和共情能力-AI.x社區

              圖1:敘事風格可以通過講述故事的方式喚起敘事共鳴。本研究引入了HEART,一個理論驅動的敘事元素分類法,這些元素有助于產生共鳴    

敘事的情感共鳴。大多數關于敘事共鳴及其相關構念的研究集中在讀者的特征和故事內容上。然而,直覺上,人們也會對故事的講述方式或敘事中使用的文體手法做出反應(圖1)。

自然語言處理(NLP)社區中敘事分析的一個關鍵挑戰是,提取與共鳴相關的文體特征并非易事。先前的工作使用基于詞數的方法或對極其有限的故事集使用手工制作的特征(來量化敘事元素。然而,更復雜的敘事手法,如情節轉折或情感的生動性,僅憑詞匯更難以概括。盡管有少數工作探索了使用大型語言模型(LLMs)進行更復雜的敘事分析任務,但文體手法的建模程度以及LLM提取的特征如何用于下游社會洞察的研究尚未充分展開。

敘事風格及其在共情中的作用。先前的工作理論化了敘事風格的轉變如何影響故事的共情效果。Keen(2006)提出了一種敘事共情理論,該理論利用敘事技巧來增強共情,例如,角色的平坦或圓潤性,角色的意識模式,以及對場景的生動運用。van Krieken等人(2017)提出了一種語言線索框架,用于衡量與敘事角色的認同,包括角色的維度,如故事的情感或感知主體。該框架涵蓋了故事的背景元素,這些元素可以促進沉浸式體驗,以及前景元素(如比喻語言),這些元素有助于與文本的美學體驗(Jacobs, 2015)。             

【LLM】大語言模型的情感理解和共情能力-AI.x社區

圖2:敘事共情與風格分類,理論界定了與對敘事的共情相關的敘事風格方面

讀者特征與敘事共情。盡管敘事風格可以影響共情,但其他因素,如讀者的特征或閱讀過程中的經歷,也會影響共情。例如,心理學、經濟學和神經科學研究表明,性別對人們的認知共情有顯著影響,女性在各個年齡段表現出比男性更高的認知共情。敘事共情的水平也可能受到個人特質共情水平(Kon-rath et al., 2018)、閱讀時的情緒狀態或對文學的一般接觸的影響。解開這些因素的影響可能具有挑戰性,已有一些先前的研究嘗試,但結果各異。    

2.2 HEART共情與敘事風格分類法

基于上述理論和實證研究,論文提出了HEART,一種能夠導致共情的敘事風格元素的分類法。在《敘事共情理論》中,Keen認為角色塑造、敘事情境、內部視角以及表現角色意識的技巧等方面可以促進敘事共情。論文利用這些概念作為開發HEART的前導。論文的理論模型作為理解敘事特征的哪些方面可能引發共情以及論文如何使用計算方法來衡量這些因素的起點。

圖2展示了論文的完整分類法,該分類法通過四個主要類別來界定敘事風格與敘事共情之間的關系:(1) 角色認同 (2) 情節 (3) 觀點 (4) 背景。

角色認同 論文提到的角色認同元素是指吸引讀者進入敘述者視角的故事方面,無論是跨越內部維度(情感/認知)還是外部維度(感知/時間)。論文定義了六個高級分類法元素,這些元素可以在故事中促進與角色的認同,主要基于van Krieken等人(2017)關于角色認同的工作:

1.角色的扁平/圓形,包括通過故事過程中的角色發展或角色脆弱性表現出的角色深度。

2.情感主體,指情感在語氣和情感生動性方面的表達方式。

3.認知主體,捕捉諸如思考、計劃和決策等認知表達。

4.道德主體(,主要指通過故事傳達的敘述者評價或意見表達。

5.行動主體,指角色行動的表達。

6.主體感知,捕捉角色經歷的感知和身體感覺的生動性。

7.時間參照,包含表達的懷舊(回顧過去)或預測和期待(展望未來)。    


【LLM】大語言模型的情感理解和共情能力-AI.x社區

表1:兩位專家人類注釋者在論文分類法的敘事元素上的一致性。分數乘以100并四舍五入以提高可讀性,并按KA排序。斯皮爾曼相關性p表示顯著性

情節 定義情節一直是敘事分析中的關鍵任務,并通過在關鍵時刻增強敘述者的故事來促進共情。論文界定了與敘事共情相關的三個情節方面:

1.情節容量捕捉了故事中事件的頻率和重要性。

2.情感變化指示了故事整體情感軌跡的波動(如從低到高價值反之亦然)。

3.解決捕捉了角色經歷主要沖突后的緊張釋放。

視角 先前的研究指出,視角可以影響對敘述者的共情(Eekhof 等人,2023;Fernandez-Quintanilla,2020;Spitale 等人,2022)。例如,第一人稱視角可以強調故事的個人性質,并使讀者深入敘述者的角色。

背景 最后,敘述者的環境和背景可以促進敘事共情(Pille-mer,1992;van Krieken 等人,2017),例如通過構建世界來增強敘事傳遞。論文通過敘事中背景描述的生動性來捕捉這一要素。    

2.3 HEART-felt Stories 數據集標注

論文對 HEART-felt Stories 數據集進行了標注,這是一個包含專家對部分故事評級的個人敘事語料庫。

2.3.1 故事數據集

為了實證觀察 HEART 的敘事元素,論文從 EMPATHICSTORIES(Shen 等人,2023)和 EMPATHICSTORIES++(數據集中選取了一個種子數據集,這些數據集專門設計來包含意義深遠且脆弱的個人故事,涵蓋了多樣化的敘述者和話題(如人際關系、心理健康、職業和學業等)。

EMPATHICSTORIES 數據集包含來自社交媒體網站(Facebook、Reddit)、眾包個人敘事和轉錄播客的 -1,500 個個人敘事。EMPATHICSTORIES++ 數據集包含約 500 個自動轉錄的與 AI 互動的對話式個人故事。論文過濾掉了可能有害的話題(如提及性侵犯、過度咒罵),并排除了字數少于 200 字的故事(可能不包含豐富的敘事風格元素),最終得到一個包含 874 個個人故事的數據集。

2.3.2 專家敘事風格標注

論文從最終的874個故事數據集中隨機抽樣了50個故事,以獲取專家對敘事元素的標注,并驗證大型語言模型(LLM)在該任務上的表現。論文從分類法中選取了12個難以從現有NLP工具包中提取的敘事元素,這些元素需要人類判斷,因為任務的主觀性。論文的研究團隊中三位具有文本分析和標注專業知識的獨立成員,通過迭代設計了一個編碼本(附錄C),其中包含評估每個元素存在的指導和示例。

隨后,兩位獨立的專家標注員對50個采樣故事中12個敘事元素的存在情況進行了評分。表1顯示了使用Krippendorf的α系數(KA)、成對一致性百分比(PPA)和Spearman相關系數(ρ)計算的2位標注員之間的一致性。所有評分都呈正相關,但不同的敘事元素有不同程度的一致性。    

【LLM】大語言模型的情感理解和共情能力-AI.x社區

表2:論文分類法中敘事元素的聚合人類標注者(黃金評分)與GP1-4評分之間的協議。

【LLM】大語言模型的情感理解和共情能力-AI.x社區


2.4 用于敘事風格提取的大型語言模型

在表2中,論文報告了同樣50個采樣故事上人類評分平均值和GPT-4評分之間的一致性。論文觀察到GPT-4和人類標注員之間的一致性模式與論文兩位專家標注員之間的一致性相似。GPT-4為人物脆弱性、樂觀性和故事結局等敘事特征提供了高度一致的評分。因此,論文使用GPT-4提取語料庫中所有剩余故事的敘事元素,并在后續的實證研究中排除與人類黃金標準標簽一致性低的特征。    

2.4.1 大型語言模型與詞典的性能比較

論文發現,GPT-4提取的樂觀基調、生動情感和人物脆弱性特征與人類評分的一致性優于LIWC對應項,盡管只有人物脆弱性在統計學上顯著更高(Fisher精確檢驗的p值<0.001)。然而,LIWC在認知類別上優于GPT-4,盡管統計學上不顯著。論文在下面的錯誤分析中討論了使用GPT-4提取敘事認知水平的潛在錯誤來源。

2.4.2 錯誤分析

論文觀察到,與人類注釋者相比,GPT-4在評估故事中表達的評估和認知水平時始終過高。通過定性分析GPT-4和人類在故事上存在較大分歧的示例(,GPT-4通常將情感反應與評估、歸因或欲望混為一談(例如:“它讓我想起了我第一次上大學的情景...我的父母多么為我興奮和害怕。我自己也是既興奮又害怕。”)。對于認知錯誤,論文發現這些系統性錯誤通常是由于GPT-4將回憶與認知演示混淆,而實際上故事中并沒有包含更多的內在思考過程。

最終,論文的驗證研究表明,LLMs可以近似提取與共情相關的敘事元素,這與先前的工作(相印證,但某些特征對模型來說更難以識別。論文在下一節中展示,即使沒有完全一致,GPT-4的敘事評分仍然揭示了關于敘事共情的趣味行為見解。

2.5 測量共情的人類研究

這里論文將討論論文的研究參與者、任務程序以及論文的數據收集和使用的度量。

2.5.1 參與者

論文在Prolific上招募了2,624名參與者,以閱讀并評價對個人故事的共情。參與者的概況見附錄A。參與者性別平衡,主要是白人,平均具有較高的特質共情。

2.5.2 研究程序

在獲得IRB批準的研究開始時,參與者首先評價他們當前的情緒狀態(喚醒/效價),然后閱讀一個個人故事。閱讀故事后,他們被要求評價對故事的共情程度,并檢查論文的分類法中哪些敘事元素對其對故事的情感反應貢獻最大。論文還提出了一個開放式問題,詢問敘事風格的哪些方面使他們與故事產生共鳴。    

在此之后,論文要求參與者回答與以下內容相關的問題:(1) 敘述-讀者互動效應,這包括與閱讀敘述過程相關的讀者因素(敘述傳輸、與故事中發生的事件相關的先前經驗,以及與敘述者的感知相似性);(2) 讀者特征(年齡、性別、種族、特質同理心、他們閱讀娛樂的頻率、流利語言和教育水平)。調查測量和選擇這些測量的理由將在下一部分詳細說明。所有參與者回答調查后獲得1美元報酬,參與者平均花費7分鐘完成整個任務。874個故事中的每一個都至少被獨立讀者評價了3次,總計產生了2,624次對故事的同理反應。

2.5.3 數據收集與測量

論文的用戶研究旨在捕捉對多樣敘述集合的同理心,這些敘述集合由具有不同讀者特征的多樣參與者組成,此外還包括可能調節敘述風格對同理心影響的變量。基于探索與同理心相關因素的實證工作,論文設計了以下調查(所有調查均包含在附錄E中以供可重復性。論文公開了數據集,以促進對敘事共情分析的深入研究。

【LLM】大語言模型的情感理解和共情能力-AI.x社區

圖3:敘事風格元素和讀者特征如何影響讀者對敘事的體驗(敘事-讀者交互效應)的可視化。所有這些組件結合起來進而影響下游的敘事共情    

共情與敘事風格偏好 論文通過狀態共情量表來衡量對故事的共情。為了評估敘事風格偏好,參與者從論文的分類法中勾選出那些他們認為有助于對故事產生共情的元素。此外,論文還要求提供關于哪些敘事風格元素有助于對故事產生共情的定性自由反饋。

敘事-讀者交互效應 論文將讀者特征與閱讀敘事體驗的交集處的影響定義為敘事-讀者交互效應。這些包括:(1) 敘事沉浸,通過沉浸量表簡版/TS-SF測量;(2) 先前經驗,通過利克特量表衡量讀者認為自己與敘述者所處情境的相似程度;(3) 對敘述者的感知相似性,通過感知關系多樣性量表(Clark, 2002)測量。這些特征使論文能更好地理解敘事風格元素如何通過與敘事-讀者交互作用導致下游共情的途徑。

讀者特征 論文基于與共情相關的屬性的全面文獻回顧收集讀者特征。這些特征包括:(1) 讀者在閱讀故事前的情緒狀態,通過喚醒/效價量表測量;(2) 基本人口統計信息,包括年齡、性別、種族,(3)參與者為了娛樂而閱讀的頻率,以及(4)特質共情,通過單一項目特質共情量表/SITES和多倫多共情問卷/TEQ進行測量。Prolific 自動提供參與者的額外人口統計信息,如流利語言、國籍、就業和學生身份。             

【LLM】大語言模型的情感理解和共情能力-AI.x社區

              圖4:比較每種敘事特征高與低存在時的平均共情,論文發現,在角色發展和情節量更多的故事中,共情顯著增加

2.6 敘事共情的實證洞察

通過注釋的敘事元素、個人故事的多樣共情評分以及讀者特征,論文展示了論文的分類法在探索與數據集中相關特征子集有關的共情實證問題方面的有效性。

敘事風格影響共情 首先,論文通過取3位評分者的平均值來聚合每篇故事的共情評分。然后,論文將故事分為每種敘事特征的高與低存在,并對故事的平均狀態共情應用Mann-Whitney u檢驗。圖4顯示,高度聚合的共情故事具有更多的角色發展和情節量。

敘事共情并非一刀切 盡管論文之前的分析捕捉到了聚合的共情,但不同的人對同一故事可能會有不同的情感反應。在圖6(附錄B)中,論文展示了同一故事狀態共情得分的標準差,發現平均而言,這個標準差顯著大于零(p < 0.001),表明同一敘事可以引發不同水平的共情。

敘事的生動情感表達導致敘事共情 鑒于論文的發現,敘事共情并非“一刀切”,論文進行了分析,考慮了每個故事ID的隨機效應,使用semopy庫進行結構方程建模。結構方程建模是社會科學中用于結構化假設檢驗的標準方法,它使用廣義線性模型的表述來考慮在提出元素間關系的理論模型時固定效應和隨機效應。

【LLM】大語言模型的情感理解和共情能力-AI.x社區

圖5:敘事風格元素如何導致敘事沉浸的結構方程模型,同時考慮了讀者與敘述者共享相似經歷以及讀者的基線特質共情的影響

根據論文在圖3中的理論模型,論文看到情感的生動性顯著影響敘事沉浸,進而影響對故事的下游共情。圖5展示了敘事特征如何促進敘事沉浸,導致下游共情,并考慮了非風格因素,如讀者與敘述者共享相似經歷以及讀者的特質共情水平。論文發現,敘述者對故事中發生的事情的先前經歷以及他們的基線特質共情都是對故事共情的重要預測因子,但不如敘事沉浸那么顯著。    

敘事風格偏好與共情的關系是個性化的 最后,論文展示了不同的群體可能偏好不同的敘事方式,其中偏好通過敘事共情來衡量。在論文的結構模型中加入交互項,論文發現生動的情感對狀態共情有顯著的交互效應(est = 0.252,p < 0.001)。這表明,隨著特質共情的增加,生動情感與狀態共情之間的關系增強,暗示敘事風格偏好因群體而異。

盡管論文的實證分析肯定不是詳盡無遺的,但它展示了如何使用HEART來獲得關于敘事風格如何促進同理心的有趣行為見解。特別是,論文注意到,在敘事同理心中考慮個性化,以及情境化讀者因素(如他們的特質同理心水平)對于同理心預測至關重要,而這些因素在現有的同理心任務中常常被忽視。

論文標題:HEART-felt Narratives:Tracing Empathy and Narrative Style in Personal Stories with LLMs

論文鏈接:??https://arxiv.org/pdf/2405.17633??  




收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美在线一区 | 91亚洲国产成人久久精品网站 | 国产精品成人一区二区三区夜夜夜 | 91n成人| 欧美精品电影一区 | 成人精品久久 | 日韩精品在线观看网站 | 久久精品99久久 | 少妇一区在线观看 | www.99精品| 99re热这里只有精品视频 | 福利视频一区二区 | 国产精品久久久久久婷婷天堂 | 国产精品欧美一区二区三区不卡 | 久久久精品国产 | 日韩精品免费在线观看 | 久久99深爱久久99精品 | 成av在线 | 天天干夜夜操视频 | 婷婷丁香激情 | 超碰在线免费 | 久久99久久98精品免观看软件 | 国产在线观看一区二区 | 欧美日韩国产在线观看 | 欧美一级在线 | 欧美在线精品一区 | 99爱在线视频 | 国产精品久久久久久久久久99 | 国产成人在线视频播放 | 草草视频在线观看 | 亚洲国产成人精品女人久久久 | 国产中文在线 | 亚洲精品自在在线观看 | 日韩在线高清 | 拍真实国产伦偷精品 | 亚洲一区视频 | 国产乱人伦 | 男人av网 | 在线视频中文字幕 | 午夜伊人 | 日韩精品一区二区三区在线播放 |