強化學習揭開人們運用抽象思維時大腦是如何工作的
「在某種程度上,所有藝術都是抽象的。」
二十世紀世界著名的雕塑大師亨利·摩爾(Henry Spencer Moore)認為,藝術是抽象的最好例子之一。但抽象絕不限于藝術創作等高級認知行為,抽象是人類思維超越直接感官信息的獨特能力。
大腦十分擅長構建和使用抽象。在最近的一項神經科學的研究中,研究人員通過結合使用強化學習算法和大腦成像技術,為我們展示了一種基于感官特征評估的抽象機制,這為教育和康復、精神疾病治療以及人工智能新算法的開發開辟新的道路。
這項研究于 7 月 13 日以「 Value signals guide abstraction during learning 」為題發表在《eLife》雜志上。
抽象涵蓋了我們與環境交互的方方面面。想象一下,你在森林里散步時需要穿過一條小溪,這一看似簡單的行為卻需要處理無數的視覺和聽覺等特征。強化學習(RL)直接從高維感官輸入(看到、聽到河流)中輸出行為(過河),會遇到計算瓶頸,而抽象表示已被認為是克服這一問題的有效解決方案。
抽象可以被認為是從更高維空間雕刻出簡化的地圖,其中細節已被刪除,以便專注于更高階的概念、類別或模式。那么,大腦中的抽象表征是如何構建的?
研究團隊邀請志愿者進行反復學習事物關聯規則的實驗,并用功能性磁共振成像(fMRI)技術記錄他們的大腦活動。接著,他們通過強化學習建模跟蹤志愿者的評估過程并根據抽象程度分離他們的學習策略。
學習過程中價值建構的神經基質。(來源:論文)
論文合著者、京都 ATR 計算神經科學實驗室主任 Mitsuo Kawato 博士具體解釋了神經反饋操作:「通過機器學習和先進的神經成像技術,我們現在可以實時檢測大腦中是否以及何時會出現低于意識閾值的心理表征。當我們給參與者一個小的獎勵時,隨著時間的推移,這種心理表征與獎勵(價值)相匹配。通過這種方式,我們能夠『欺騙』大腦使用這些新的有價值的心理表征來構建抽象思想。」
實驗表明,通過學習,高價值的抽象表征越來越多地引導志愿者的行為,從而產生更好的選擇和更高的主觀信心,其中「價值」是形成目標依賴的抽象表示的關鍵因素。
通過簡單的決策問題研究高級的抽象功能
領導該團隊的京都國際高級電信研究所首席研究員 Aurelio Cortese 博士說:「這項研究在同類研究中非常獨特,因為它使用基本的視覺刺激和簡單的決策問題研究了抽象等高級復雜功能。」
該團隊給實驗參與者的問題是吃豆人更喜歡哪種水果,其中,吃豆人有三種特征:顏色、嘴巴方向和條紋方向。參與者會在選擇后看到結果,從不斷的試驗中學習特征和水果的隱藏關聯,并被告知關聯規則發現的越快,獎勵越高。
志愿者參與實驗的學習任務和行為結果。(來源:論文)
「然而,這種簡單性將我們直接帶到了潛在機制,幫助解決了一個長期存在的問題神經科學文獻:為什么我們總是在大腦中看到價值信號?抽象可能是關鍵。我們需要不斷地以抽象的方式思考,不然我們的世界就太復雜了。」
研究人員基于經典的 RL 算法 Q-learning 提出了特征強化學習(Feature RL)和抽象強化學習(Abstract RL)。經過實驗對比發現,為了更快地學習,智能體必須使用抽象強化學習,其他的策略則會導致任務塊的完成速度變慢。
強化學習專家和價值計算的混合。(來源:論文)
價值信號和抽象思維的關系
該團隊還進行了第二個實驗,研究了價值在通過感覺皮層的定向效應促進抽象的因果作用。通過直接分析來測試特征評估指導學習中的抽象的因果假設,以獎勵的形式人為地為特征表示增加價值導致抽象的使用增加。
通過神經反饋在感官表征中人工注入價值促進抽象。(來源:論文)
雖然價值和抽象在減少任務空間的維度方面似乎緊密相關,但其潛在的機制是什么?
論文合著者、倫敦大學學院認知神經科學研究所教授 Benedetto De Martino 博士認為:「價值傳統上與享樂相關,例如巧克力棒的價值。價值可能對智力的某些方面至關重要這一結論或許是激進的。價值本身很可能是一種抽象,并且與決策中的任務狀態概念緊密相關。」
但是,這項工作為價值在產生抽象思維中的作用提供了一個新的視角,即大腦中價值信號在復雜學習策略的發展中起著重要的算法作用。「這項研究是我們廣泛努力的一部分,旨在了解人類思維的算法本質,并最終將這些知識轉化為人工智能的新架構,并為精神疾病帶來新的治療方法。」