強化學習教父新論文探索決策智能體的通用模型:尋找跨學科共性
強化學習和決策多學科會議(Multi-Disciplinary Conference on Reinforcement Learning and Decision Making, RLDM)的重要前提是,隨著時間的推移,多個學科對目標導向的決策有著共同的興趣。
近日,阿爾伯塔大學計算機科學系教授、強化學習先驅(qū) Richard S. Sutton 在其最新論文《The Quest for a Common Model of the Intelligent Decision Maker》中通過提出決策者的觀點來加強和深化這一前提,該觀點在心理學、人工智能、經(jīng)濟學、控制理論和神經(jīng)科學等領(lǐng)域得到實質(zhì)和廣泛的應(yīng)用,他稱之為「智慧智能體的通用模型」。通常模型不包含任何特定于任何有機體、世界或應(yīng)用域的東西,而涵蓋了決策者與其世界交互的各個方面(必須有輸入、輸出和目標)以及決策者的內(nèi)部組件(用于感知、決策、內(nèi)部評估和世界模型)。
論文地址:https://arxiv.org/pdf/2202.13252.pdf
Sutton 確定了這些方面和組件,指出它們在不同學科中被賦予不同的名稱,但本質(zhì)上指向相同的思路。他探討了設(shè)計一個可跨學科應(yīng)用的中性術(shù)語面臨的挑戰(zhàn)和帶來的益處,并表示是時候認可并在智慧智能體的實質(zhì)性通用模型上構(gòu)建多樣化學科的融合了。
DeepMind Alberta 杰出研究科學家、強化學習教父 Richard S. Sutton
探索決策者的通用模型
RLDM 的前提是所有對「隨時間推移學習和決策以實現(xiàn)目標」感興趣的學科融合在一起并共享觀點是有價值的。心理學、神經(jīng)科學等自然科學學科、人工智能、優(yōu)化控制理論等工程科學學科以及經(jīng)濟學和人類學等社會科學學科都只部分關(guān)注智能決策者。各個學科的觀點不同,但有相通的元素??鐚W科的一個目標是確定共同核心,即決策者對所有或許多學科共有的那些方面。只要能夠建立這樣一個決策者的通用模型,就可以促進思想和成果的交流,進展可能會更快,獲得的理解也可能會更加基礎(chǔ)和持久。
探索決策者的通用模型并不新鮮。衡量其當前活力的一個重要指標是 RLDM 和 NeurIPS 等跨學科會議以及《神經(jīng)計算》、《生物控制論》和《適應(yīng)行為》等期刊的成功。很多科學洞見可以從跨學科互動中獲得,例如貝葉斯方法在心理學中的廣泛應(yīng)用、多巴胺在神經(jīng)科學中的獎勵預(yù)測誤差解釋以及在機器學習中長期使用的神經(jīng)網(wǎng)絡(luò)隱喻。盡管很多這些學科之間的重要關(guān)系與學科本身一樣古老,但遠遠未解決。為了找到學科之間、甚至一個學科內(nèi)部之間的共性,人們必須忽略很多分歧。我們必須要有選擇性,從大局出發(fā),不要期望沒有例外發(fā)生。
因此,在這篇論文中,Sutton 希望推進對智能決策者模型的探索。首先明確地將探索與富有成效的跨學科互動區(qū)分開來;其次強調(diào)目標是作為高度跨學科的累積數(shù)值信號的最大化;接著又強調(diào)了決策者的特定內(nèi)部結(jié)構(gòu),即以特定方式交互的四個主要組件,它們?yōu)槎鄠€學科所共有;最后突出了掩蓋領(lǐng)域之間共性的術(shù)語差異,并提供了鼓勵多學科思維的術(shù)語。
交互術(shù)語
決策者隨時間推移做出決策,可以分為離散的步驟,在每個步驟接收新信息并做出可能影響之后所接收信息的決策。也就是說,隨著時間推移,與交換的信號產(chǎn)生交互。對于信號和交換信號的實體,我們應(yīng)該使用什么術(shù)語呢?在心理學中,決策者是有機體,它接收刺激并向環(huán)境發(fā)送響應(yīng)。在控制理論中,決策者被稱為控制者,接收狀態(tài)并向受控體發(fā)送控制信號。決策者在其他領(lǐng)域使用其他術(shù)語,這就說明了挑戰(zhàn)的存在,即找到不會令讀者對某個領(lǐng)域產(chǎn)生偏見的術(shù)語,而是促進跨學科邊界的思考。
開始建立術(shù)語的一個好方法是闡明這些詞語想要和不想要傳達的意思。后者對我們來說尤其重要,因為我們不希望術(shù)語喚起特定于任何具體學科的直覺。例如,將決策者成為有機體會干擾將它看作機器,就像在人工智能中一樣。決策者的本質(zhì)在于它的行動具有一定的自主性,對輸入非常敏感,并對未來的輸入具有傾向性影響。對于決策者的一個很好的稱呼是智能體,它的定義是「扮演積極決策或產(chǎn)生特定效果的人或物」。人工智能領(lǐng)域通常使用智能體來表述決策者,可能是機器或人。智能體也比決策者更可取,因為它意味著自主性和目的性。
那么決策智能體與什么進行交互呢?答案是它能與所有不是智能體的一切事物產(chǎn)生交互,這可以被稱作它的環(huán)境或世界。這兩個術(shù)語與特定學科沒有強關(guān)聯(lián),但本文選擇世界的原因在于它更簡單,同時不與任何特定學科產(chǎn)生關(guān)聯(lián)的方式令人印象深刻。如下圖所示,為了完成智能體與世界交互的場景,我們必須為每個方向上傳遞的信號命名??梢院茏匀坏卣f,智能體采取了行動,并接收到了感知或觀察。這里使用了觀察,因為它是用于此目的的既定術(shù)語,并且避免了關(guān)于機器是否有感知的形而上學討論。在標準用法中,觀察指的是可能不完整的關(guān)于世界狀態(tài)的信息。
基本規(guī)則
前面的討論闡釋了 Sutton 在術(shù)語方面想要遵循的基本規(guī)規(guī)則和步驟,具體如下:
- 確定詞語想要表達的獨立于學科的含義;
- 找到一個能夠捕獲該含義且不會過度偏向一個或另一個學科的常識詞語;
- 重復(fù)前兩個步驟,直到發(fā)現(xiàn)跨學科共性。
Sutton 遵循的第二種基本規(guī)則不是關(guān)于術(shù)語,而是關(guān)乎內(nèi)容。當我們想要開發(fā)一個通用決策模型時,應(yīng)該包含和排除哪些方面?他試圖遵循的規(guī)則是涵蓋領(lǐng)域(field)的交集而不是并集。也就是說,為了包含一個方面,它僅出現(xiàn)在一個領(lǐng)域是不夠的,至少要與其他很多(如果不是全部)領(lǐng)域產(chǎn)生關(guān)聯(lián)。通用模型的各個方面隨時間推移必須普遍適用于所有決策,以實現(xiàn)一個目標。
通用模型中不應(yīng)有任何特定于我們世界的內(nèi)容,例如視覺、目標、三維空間、其他智能體或語言。我們排除的簡單例子是使人們與眾不同并異于其他動物的所有事物,或者動物通過進化以適應(yīng)它們生態(tài)環(huán)境的所有特定知識。這些都是人類學和行為學中特別重要的主題,真正提高了我們對自然智能系統(tǒng)的理解,但在通用模型中沒有位置。同樣地,我們排除了由人類設(shè)計師在人工只能系統(tǒng)中構(gòu)建的所有領(lǐng)域知識,以開發(fā)出需要更少訓練的應(yīng)用。所有這些在各自學科內(nèi)部都很重要,但與旨在應(yīng)用于跨學科的通用模型是無關(guān)的。
除了促進跨學科互動之外,通用決策模型可能還有其他用途。由于現(xiàn)有學科和它們的價值已經(jīng)建立,因此很容易看到學科內(nèi)部的共性成果。了解自然系統(tǒng)具有清晰的科學價值,創(chuàng)建更有用的工程產(chǎn)品具有顯著的實用價值。但是,如果不考慮智能決策與自然決策的關(guān)系,也不考慮智能決策產(chǎn)品的實際效用,那么理解智能決策的過程是不是就沒有科學價值呢?Sutton 認為是這樣。智能決策不是目前已確定的科學,但也許有一天會成為獨立于生物學或其工程應(yīng)用的決策科學。
加性獎勵
現(xiàn)在來討論決策智能體的目標?,F(xiàn)在,大多數(shù)學科根據(jù)在智能體直接控制之外產(chǎn)生的標量信號來指定智能體的目標,因此我們將其生成置于世界中。在一般情況下,這一信號在每個時間步到達,目標是最大化總和。這種加性獎勵可用于將目標表述為折扣總和或有限范圍內(nèi)總和,也或者是基于每個時間步的平均獎勵。用于表述獎勵的名稱有很多,比如報酬(payoff)、收益(gain)或者效用(utility),以及最小化獎勵時的成本(cost)。如果允許成本為負,則成本和最小化在形式上是等價的。一個更簡單但仍然流行的目標概念是要達到的世界狀態(tài)。目標狀態(tài)有時也可以用,但不如加性獎勵通用。例如,目標狀態(tài)無法維護目標,也無法明確說明時間成本與不確定性之間的權(quán)衡,但所有這些都可以通過加性框架輕松地處理。
加性獎勵具有悠久的跨學科歷史。在心理學中,獎勵主要用于使動物愉悅的外部物體或事件,即使這種愉悅感源于該物體與以更基本的方式獲得回報的事物的關(guān)聯(lián)——初級強化物(primary reinforcer) 。今天在運籌學、經(jīng)濟學和人工智能中對獎勵的使用僅限于更重要的信號,并且是接收到的信號,而不是與外部對象或事件相關(guān)聯(lián)。隨著 1960 年代最優(yōu)控制和運籌學研究中馬爾可夫決策過程的發(fā)展,這種用法似乎已經(jīng)確立。它現(xiàn)在已成為廣泛學科的標準,包括經(jīng)濟學、強化學習、神經(jīng)科學、心理學、運籌學和人工智能的多個子領(lǐng)域。
決策智能體標準組件
現(xiàn)在我們轉(zhuǎn)向智能體內(nèi)部結(jié)構(gòu),智能體通用模型的內(nèi)部結(jié)構(gòu)通常由四部分組成:感知、反應(yīng)策略、價值函數(shù)、轉(zhuǎn)換模型,如下圖所示。這四個組件對許多學科來說都是通用的,但很少有智能體能夠包含全部,當然,有些特定智能體可能還包括其他部分,下面 Sutton 介紹了這四個組件。
感知組件可處理觀察、動作流以產(chǎn)生主觀狀態(tài),這是迄今為止對智能體 - 世界交互作用的總結(jié),對于選擇動作(反應(yīng)策略)、預(yù)測未來獎勵(價值函數(shù))和預(yù)測未來主觀狀態(tài)(轉(zhuǎn)換模型)很有用。狀態(tài)是主觀的,因為它是相對于智能體的觀察和動作,可能不符合真實世界的內(nèi)部運作。通常,主觀狀態(tài)的構(gòu)建是固定的,在這種情況下,智能體被假定為直接接收主觀狀態(tài)作為一種觀察。例如,在 Atari 游戲中,主觀狀態(tài)可能是最后 4 個視頻幀及其相鄰動作。在貝葉斯方法中,主觀狀態(tài)確實與世界的內(nèi)部運作有關(guān)系:主觀狀態(tài)的目的是近似世界內(nèi)部使用潛在狀態(tài)的概率分布。在預(yù)測狀態(tài)方法中,主觀狀態(tài)是一組預(yù)測。在深度學習中,主觀狀態(tài)通常是遞歸人工神經(jīng)網(wǎng)絡(luò)的瞬間活動。在控制理論中,感知組件的計算通常被稱為狀態(tài)識別或狀態(tài)估計。
一般而言,感知組件應(yīng)具有遞歸形式,這允許智能體從先前的主觀狀態(tài)、最近的觀察和最近的動作有效地計算主觀狀態(tài),而無需重新審視先前冗長的觀察和動作。感知組件必須具有快速處理的能力,即在智能體 - 世界交互的連續(xù)時間步之間的時間間隔內(nèi)很好地完成。
通用模型的反應(yīng)策略組件將主觀狀態(tài)映射到一個動作。與感知一樣,反應(yīng)策略必須快速,感知速度和反應(yīng)策略共同決定了智能體的整體反應(yīng)時間。有時感知和反應(yīng)策略被放在一起處理,就像端到端學習一樣。將動作生成分為感知和策略,在許多學科中都很常見。在工程學中,人們通常認為感知是給定的,而不是學習到的,甚至不是智能體的一部分。工程顯然有反應(yīng)策略的思想,通常是通過分析計算或推導出來的。人工智能系統(tǒng)通常假設(shè)在動作之前可以有大量處理過程(例如,下棋程序)。在心理學中,通常將感知視為支持但先于動作的感知,并且可以獨立于對特定動作的影響進行研究。
通用模型的價值函數(shù)組件將主觀狀態(tài)(或狀態(tài) - 動作對)映射到標量評估,操作上定義為預(yù)期累積獎勵。這種評估速度很快,并且獨立于直覺等因素,但可能基于長期經(jīng)驗(甚至基于專家設(shè)計)或來自有效存儲或緩存的廣泛計算。無論哪種方式,研究者都可以快速調(diào)用評估,以支持改變反應(yīng)策略的進程。
價值函數(shù)具有非常廣泛的多學科歷史。在經(jīng)濟學中,它們被稱為效用函數(shù);在心理學中,它們與次級強化物的舊觀念和獎勵預(yù)測的新觀念有關(guān)。價值函數(shù)這個術(shù)語最初來自動態(tài)規(guī)劃,然后在強化學習中得到應(yīng)用,其中價值函數(shù)被廣泛用作理論和大多數(shù)學習方法的關(guān)鍵組成部分。在神經(jīng)科學中,價值函數(shù)中的誤差或獎勵預(yù)測誤差被假設(shè)為對神經(jīng)遞質(zhì)多巴胺的相位信號的解釋。
智能體通用模型的第四個也是最后一個組件,即轉(zhuǎn)換模型,它接收狀態(tài)并預(yù)測如果采取不同動作智能體會產(chǎn)生什么樣的下一個狀態(tài)。轉(zhuǎn)換模型可以稱為世界模型,但這種說法會夸大轉(zhuǎn)換模型作用。轉(zhuǎn)換模型用于模擬各種動作的影響,并在價值函數(shù)的幫助下,評估可能的結(jié)果并改變反應(yīng)策略,以支持具有預(yù)測良好結(jié)果的動作,以及反對具有預(yù)測不良結(jié)果的動作。
轉(zhuǎn)換模型在許多學科中扮演著重要的角色。在心理學中,自 Kenneth Craik (1943) 和 Edward Tolman (1948) 的研究以來,由轉(zhuǎn)換模型和感知提供的世界內(nèi)部模型一直是杰出的思想模型。在神經(jīng)科學領(lǐng)域,包括 Karl Friston 和 Jeff Hawkins 在內(nèi)的理論家們開始廣泛地發(fā)展大腦理論。最近在心理學上,Daniel Kahneman(2011) 提出了兩個心理系統(tǒng)的概念,第一系統(tǒng)和第二系統(tǒng)。在控制理論和運籌學研究中,研究者通常使用多種形式的轉(zhuǎn)換模型,包括微分方程模型、差分方程和馬爾可夫模型。在強化學習中,基于模型的學習方法早已被提出,它們已經(jīng)開始在大型應(yīng)用中發(fā)揮效用。在現(xiàn)代深度學習領(lǐng)域,Yoshua Bengio、Yann LeCun 和 Jurgen Schmidhuber 等著名研究者都將世界預(yù)測模型置于他們思想理論的中心位置。
限制和評估
這是一個在尋找通用智能體模型任務(wù)上的簡單方式。本文簡要提出的所有觀點都值得詳細闡述,并對歷史進行更深入的處理。然而,主要觀點似乎很清楚。我們已經(jīng)為通用模型提出了一個突出的候選者。它的外部接口——在智能體、世界、動作、觀察和獎勵方面是通用的、自然的,并且在自然科學和工程學中都被廣泛采用。智能體的四個內(nèi)部組成部分也各自具有悠久而廣泛的多學科傳統(tǒng)。
本文提出的通用模型可能會因為遺漏的內(nèi)容而受到批評。例如除獎勵之外,它沒有明確的觀察預(yù)測作用,也沒有對探索、好奇心或內(nèi)在動機的處理。并且所有四個組成部分都必須涉及學習,但這里我們僅在反應(yīng)性策略中描述了學習,而且只是籠統(tǒng)的。讀者們無疑會對通用模型沒有包含部分功能感到失望,認為這些功能的重要性被低估了。
例如,我認為智能體為自己提出的輔助子任務(wù)(Sutton et al. 2022)是智能體開發(fā)抽象認知結(jié)構(gòu)的重要且未被充分重視的手段。然而,正是因為輔助子任務(wù)沒有得到廣泛的認可,它們不應(yīng)該出現(xiàn)在智能體的通用模型中,它們也沒有得到跨學科的充分認可。
本文提出的通用模型智能體目的不是為了成為最好最新的,而是希望能夠成為一個出發(fā)點。它力求成為一個簡單的設(shè)計,在許多學科中得到很好的廣泛理解。每當研究人員引入新智能體設(shè)計時,通用模型都意味著作為一個標準,可以用來解釋新設(shè)計與通用模型的不同之處或擴展。