清華新研究解密信息繭房!全新信息動力學理論,登Nature子刊
新一代信息與智能技術的迅猛發展推動著人類逐步邁入智能社會。在數字技術和智能推薦算法的加持下,媒體和平臺越來越貼心,總是能最快最準的地契合人們的個性化偏好和需求。
然而,與此同時,智能精準推薦致使「信息繭房」現象不斷發酵,觀點相似的人群在網絡空間組成團體,特定價值偏好在群體中匯集放大,逐漸形成極端的觀點。
針對名人或社會事件的每一種極端觀點都能夠被利用成為意識形態加入和影響的工具,在網絡空間和現實世界中推波助瀾,掀起「洶洶民意」。
然而,即便如此,我們對于信息繭房仍所知甚少:真實線上系統中的信息繭房究竟有多嚴重?缺乏大規模實證研究;信息繭房的形成機理是什么?缺乏基礎理論支撐;如何解決信息繭房問題?缺乏行之有效的手段。
最近,清華大學電子系城市科學與計算研究中心與公管學院跨學科合作,通過大規模實證研究與信息動力學理論建模,首次大規模數據實證及理論揭示了信息媒體上信息繭房涌現的內在機理與相變邊界,為理解當下智能社會中人-智交互復雜社會系統提供了全新思路。
該成果以「人-智自適應動力學驅動信息繭房涌現」(Human–AI adaptive dynamics drives the emergence of information cocoons)為題在《自然·機器智能》(Nature Machine Intelligence)上在線發表。
論文鏈接:https://www.nature.com/articles/s42256-023-00731-4
代碼及數據鏈接:https://github.com/tsinghua-fib-lab/Adaptive-Information-Dynamic-Model
該成果聚焦于新聞與視頻兩個典型場景,通過分析5.7億用戶行為數據和使用信息熵度量信息繭房嚴重程度,發現在一年交互后,超過57%的活躍用戶均經歷了不同程度的信息熵下降,標志著現實系統中信息繭房的嚴重性。
在實證發現的基礎上,該成果提出了人-智自適應信息動力學模型,以建模人類與推薦算法之間的關鍵反饋回路,并通過系統信息熵的演化規律來刻畫信息繭房相變過程。
該模型從非平衡態統計力學視角揭示了「多樣化-部分信息繭房-深度信息繭房」復雜系統的相變過程及相變邊界,為控制人-智交互復雜社會系統中的信息繭房問題提供了理論基礎,并啟發后續設計通過平衡系統正反饋與負反饋以及算法精準推送與用戶自由探索,破除信息繭房,進而實現負責任的推薦算法。
論文概述
人工智能作為一種新興顛覆性技術,正在深刻改變著人類的生產、生活方式和思維方式,對經濟發展與社會進步產生著重大而深遠的影響。其中,推薦算法作為人工智能技術最廣泛應用的一種,能夠有效緩解信息過載問題,極大程度地影響著人們的所見所聞與所思所想。
然而,推薦算法也是一把雙刃劍,其所提供的個性化推薦會使人們所接觸的信息變得越來越同質化,逐漸困于信息繭房之中。而這些同質化的信息,不但會限制人們的眼界,使其遠離集體、疏離社會,而且還會助長社會矛盾與分裂。
因此,為了遏制信息繭房的產生,理解其背后的產生機理是首要一步。
已有對于信息同質化問題的研究[1-5],大多聚焦于人類行為或是智能算法。通過實證研究方法,研究指出社交媒體上同質人群聚集的潛在因素或是算法過濾效應,然而由于數據與方法論的限制,僅能夠提供相關性結論。
最近,一些實證研究[25,26]進行了因果性的分析。然而,這些研究仍未提供內在機理性的分析與解釋。更進一步地,當前推薦算法大多基于黑盒的人工智能深度學習方法,而其背后的數以億計的參數量,使得我們更加難以洞察信息繭房的根源。
針對信息繭房根源未知的問題,研究團隊聚焦于新聞與視頻兩個典型場景,通過大規模實證研究發現,在一年交互過程中,超過57%的活躍用戶均經歷了不同程度的信息多樣性的下降,并指出基于相似度匹配與正負反饋是影響信息同質化過程的關鍵要素。
進一步,基于實證發現與推薦算法領域實踐,研究團隊受隨機熱力學思想啟發,創造性地提出了人-智自適應信息動力學模型。
該模型通過刻畫基于相似度匹配與反饋利用兩個基本機制,機理性地建模了人類與推薦算法之間的關鍵反饋回路,并通過系統信息熵的演化來刻畫系統相變過程。
通過仿真實驗與理論分析,揭示了「多樣化-部分信息繭房-深度信息繭房」復雜系統的相變過程及相變邊界,為控制人-智交互復雜社會系統中的信息繭房問題提供了理論基礎與實用方法。
人-智自適應信息動力學模型
技術要點
研究團隊聚焦于新聞與視頻兩個內容推薦典型場景,通過大規模真實數據的實證分析,刻畫了真實世界信息繭房的嚴重程度及其影響因素。
具體而言,研究團隊使用信息熵來刻畫用戶所接收信息的多樣性,發現超過57%的活躍用戶都經歷了不同程度的信息多樣性的下降,其視野被推薦算法逐漸局限于狹窄的信息繭房。
通過進一步分析,研究團隊發現推薦算法基于相似度匹配的強度以及正負反饋是影響信息繭房產生的關鍵要素。該實證研究不僅首次量化了真實大規模在線信息系統中信息繭房的嚴重程度,而且為后續理論模型的提出奠定了基礎。
(a-c)聚焦于新聞與視頻兩個典型場景,量化真實世界信息繭房嚴重程度;(d-f)相似度匹配強度、正負反饋是影響信息繭房形成的重要因素。
基于實證結論與推薦算法領域實踐,結合隨機熱力學理論,研究團隊創造性地提出了人-智自適應信息動力學模型。
該模型采用信息熵來表示用戶所接觸信息的多樣性,并使用系統信息熵分布來表示系統所處狀態。
與依靠數以億計參數的深度學習模型不同,所提出的模型僅依靠基于相似度匹配與用戶反饋兩個基本機制,機理性地建模了人類與推薦算法之間的關鍵反饋回路,并使用隨機動力學方程刻畫人-智復雜動力學交互過程。
其中,代表用戶l已被觀測到的興趣分布,
代表物品k的特征分布,
分別代表基于相似度匹配強度、正反饋利用率、負反饋利用率、自由探索強度。
基于上式能夠推導出描述關于用戶在各類主題上已被觀測到的偏好的福克-普朗克方程,進一步通過平均場近似方法,最終能夠推導出用戶所接收的信息熵在人群上的分布。
研究團隊指出,在不同參數空間下,該人-智交互復雜社會系統存在多樣化、部分信息繭房與深度信息繭房三種狀態,而這三種系統狀態分別被三種不同的信息熵分布所刻畫。
大規模的仿真實驗與實證分析進一步驗證了所提出模型的解釋力與有效性。
隨著(a)基于相似度匹配強度或(b)正反饋利用率的增加,人-智交互復雜社會系統經歷了從多樣化狀態到部分信息繭房狀態,再到深度信息繭房狀態的相變過程。紅色虛線為理論線,柱狀圖為仿真線。
研究團隊發現,隨著基于相似度匹配強度或正反饋利用率的增加,該復雜系統呈現出了從多樣化狀態到部分信息繭房狀態,再到深度信息繭房狀態的相變過程。
然而,如果提升負反饋利用率或自由探索強度,系統則會經歷一個逆相變過程,即從深度信息繭房到部分信息繭房,最后到多樣化狀態。上述四個相變過程經過理論分析與大規模仿真實驗的一致驗證。
隨著(a)負反饋利用率的增加或(b)自由探索強度的增加,人-智交互復雜社會系統經歷了從深度信息繭房狀態到部分信息繭房狀態,再到多樣化狀態的逆相變過程。紅色虛線為理論線,柱狀圖為仿真線。
通過聯合分析,研究團隊展示了在基于相似度推薦、正負反饋利用以及自由探索四個要素聯合驅動下的整體系統的相變圖,并揭示了在信息繭房涌現的內在機理。
具體而言,基于相似性匹配作為有效力場,推動復雜交互系統從多樣化走向同質化。正反饋進一步放大了這一力場,導致信息多樣性下降。
而負反饋和自由探索通過抵制有效力場的作用,為系統引入擾動,從而促進信息多樣性。
關于相變邊界,理論預測結果與仿真實驗結果呈現出高度一致性,同時,通過大量仿真實驗與實證分析,例如替換函數、測量信息熵分布等,進一步驗證了所提出模型的穩健性與有效性。
系統相變圖,(a-b)基于視頻與新聞場景數據的三維系統相變圖,(c-e)基于視頻場景數據的二維系統相變圖,(f-h)基于新聞場景數據的二維系統相變圖。
隨著人工智能技術的廣泛應用,人類與智能系統之間的復雜交互構成了一個涉及多個實體與多種反饋的復雜人智交互系統。
當前人工智能大多基于深度學習技術,而其黑盒屬性進一步阻礙了深入理解該類復雜交互系統中的動態特性和涌現行為。
研究團隊所提出的自適應信息動力學模型通過提供對信息繭房涌現行為的機理性建模,為深入研究各類復雜人-智交互系統提供了有力的理論工具。此外,所提出的理論模型對于負責任的推薦算法設計具有實際指導意義。
該研究指出兩個信息繭房的有效方法,即促進負反饋的有效利用,從學習用戶的負反饋這一全新視角來建模用戶偏好;以及促進用戶自由探索,通過增大用戶對于自身內容消費的自由度與自主權,來拓寬信息視野。
綜上所述,該研究成果不僅為推薦算法設計指明了實際改進方向,而且還為理解人-智交互復雜社會系統提供了理論工具,以啟發后續Complex System for AI的相關研究。
作者介紹
清華大學電子系城市科學與計算研究中心博士生樸景華與博士后劉家臻為論文共同第一作者,李勇副教授為通信作者;清華公共管理學院張芳助理教授、蘇竣教授為共同作者。
該研究成果得到科技創新2030—「新一代人工智能」重大項目與自然科學基金項目的支持。