強化學習大牛Sergey Levine:將RL作為可擴展自監督學習的基礎
目前,機器學習系統可以解決計算機視覺、語音識別和自然語言處理等諸多領域的一系列挑戰性問題,但設計出媲美人類推理的靈活性和通用性的學習賦能(learning-enable)系統仍是遙不可及的事情。這就引發了很多關于「現代機器學習可能缺失了哪些成分」的討論,并就該領域必須解決哪些大問題提出了很多假設。
問題來了:這些缺失的成分是因果推理、歸納偏置、更好的自監督或無監督學習算法,還是其他完全不同的東西?在今年 10 月份的論文中,強化學習大牛、UC 伯克利電氣工程與計算機科學助理教授 Sergey Levine 提出并對這一問題進行了深入探討。
該研究認為利用強化學習可以衍生出一個通用的、有原則的、功能強大的框架來利用未標記數據,使用通用的無監督或自監督強化學習目標,配合離線強化學習方法,可以利用大型數據集。此外,該研究還討論了這樣的過程如何與潛在的下游任務更緊密地結合起來,以及它如何基于近年來開發的現有技術實現的。

論文地址:https://arxiv.org/pdf/2110.12543.pdf
他認為這個問題很難回答,任何答案必然涉及大量猜想,但我們從人工智能近來的進展中吸取的教訓可以提供幾個指導原則。
第一個教訓是需要大量訓練數據的大規模通用模型的「不合理」有效性。正如阿爾伯塔大學計算機科學系教授 Richard S. Sutton 在其文章《The Bitter Lesson》中以及機器學習領域大量其他研究者所表達的那樣,機器學習近來的研究主題始終是「高效利用大量計算和數據的方法通常優于依賴手動設計的先驗和啟發式方法」。雖然探討造成這一趨勢的原因超出了本文的探討范圍,但可以總結(或夸張地描述)如下:當我們為模型設計偏見或先驗時,我們正在注入自己關于世界如何運作的不完善的知識,這使得模型得出了比我們自身設計的還要準確的結果,因而也會工作地更好。
事實上,在人們如何獲得熟練程度方面也表現出類似的模式,正如 UC 伯克利名譽教授 S.E. Dreyfus 等在著作《Philosophy and technology II》中所討論的那樣,遵循我們可以明確表達出的規則的「rule-based」推理往往只會為人們提供各種技能的「新手級」表現,而「專家級」表現往往與人們難以清晰表達的各種特例、例外情況和模式息息相關。正如 Dreyfus 所指出的,真正的人類專家很少能夠清楚地闡明他們所展示的專業知識所遵循的規則。因此,正如人類必須要從經驗中獲得專業知識一樣,機器學習也必須如此。為此,研究者認為,我們需要強大的、高容量的模型,這些模型施加的偏見較少并且可以處理大量所需的經驗。
第二個近期得到的教訓是人工標記和監督在規模上遠遠不如無監督或自監督學習。我們看到,無監督預訓練已經成為了自然語言處理的標準,并且可能將很快也成為其他領域的標準。從某種意義上來講,這個教訓是第一個教訓的必須結果:如果大模型和大數據集最有效,那么任何限制模型和數據集大小的事情最終都將會成為瓶頸。人類監督可能就是這樣一種瓶頸:如果所有數據都必須由人工標記,則系統從中學習所需的數據就會減少。但這里,我們遇到了一個難題:當前沒有人類標簽的學習方法往往違反第一個教訓的原則,即需要大量的人類洞察力(通常是特定領域的)來設計允許大模型從未標注數據集中獲得有意義知識的自監督學習目標。這些包括語言建模等相對簡單的任務,以及「預測兩個轉換后的圖像是否由同一個原始圖像還是兩個不同的圖像各自生成」的更深奧的任務。后者是計算機視覺領域現代自監督學習中廣泛使用且表現成功的方法。雖然這些方法在一定程度上有效,但我們將面臨的下一個瓶頸可能是在無需人工標記或手動設計自監督目標時決定如何訓練大模型,從而使得到的模型既可以對世界有深刻和有意義的理解,也能夠在執行下游任務時表現出穩健泛化性(robustness generalization)和一定程度的常識。
在作者看來,這種方法論可以從當前基于學習的控制(強化學習, RL)算法中開發出來,盡管需要大量的算法創新才能使這類方法能夠顯著超越它們迄今為止所能解決的問題類型。這一想法的核心是這樣一種概念:為了使用不同的和以目標為導向的方式控制環境,自主智能體必須發展對它們所處的因果和可泛化的環境的理解,因此可以克服當前監督式模型的很多缺點。
與此同時,這還需要在以下兩個重要方面超越當前的強化學習范式。一方面,強化學習算法需要用戶手動指定任務目標即獎勵函數,然后學習完成該任務目標所需的行為,當然,這種做法極大地限制了智能體在無人類監督時的學習能力;另一方面,現在常用的強化學習算法本質上不是數據驅動的,而是從在線經驗中學習。盡管此類方法可以直接部署在真實世界環境中,但在線主動數據收集限制了它們在此類設置中的泛化能力。另外,強化學習的很多用例是發生在模擬環境中,因而很少有機會學習現實世界如何運作的。
通過行動進行學習
人工智能系統之所以有用,是因為它們提供了可用于決策的推理,反過來推理又能影響世界。因此,我們可以得出這樣的結論:一般的學習目標應該是為學習那些最有用、最有意義的事情提供動力。我們應該考慮強化學習如何為訓練高容量模型提供自動化和原則性的目標,賦予模型理解、推理和泛化的能力。
然而,這面臨兩個限制:強化學習需要手動定義獎勵函數,此外,強化學習還需要一種主動學習范式。為了解決帶有目標的問題,研究者開始開發新的算法,這些方法不同于執行單個用戶指定的任務,而是旨在推理出所有可能結果。這些方法潛在目標包括學習達到任何可行狀態、學習最大化潛在目標和結果之間的交互信息、通過有原則的內在動機目標學習得到覆蓋廣泛的結果。為了解決數據問題,研究者必須開發強化學習算法,以有效利用以前收集的數據集,其中離線強化學習算法提供了在多樣性數據集上訓練 RL 系統的途徑,其方式與監督學習大致相同,然后進行一定量的主動在線微調以獲得最佳性能 。

舉例來說,想象一個機器人執行各種任務,當給定用戶指定的目標時,機器人執行該目標。然而,在機器人的「空閑時間 spare time」,機器人會想象它可以產生的潛在結果,然后機器人通過「實踐 practices」采取行動來產生這些結果。每一次這樣的實踐都會加深機器人對世界因果結構的理解。
當然,在現實世界中以上述方式部署的商業機器人系統在概念上似乎有些牽強。這也正是離線 RL 重要的原因:由于離線算法與經驗來源無關,因此機器人完成用戶指定目標與「playing」所花費的時間比例可以調整為任一極端,甚至一個將所有時間都花在執行用戶指定任務上的系統,仍然可以將其收集的經驗用作離線訓練數據來學習,以實現預期結果。這樣的系統仍會與環境「play」,但只是在其「記憶 memories」中進行了虛擬化。
機器人系統可能是實例化這種設計最明顯的領域,但這種設計不局限于機器人。任何具有明確定義行動概念的系統都可以通過這種方式進行訓練,例如推薦系統、自動駕駛汽車、庫存管理和物流系統、對話系統等等。
在許多設置下,在線探索可能行不通,但通過離線 RL 以無監督結果驅動目標進行學習是可行的。如前所述,ML 系統由于能夠做出智能決策非常有用。因此,任何有用的 ML 系統都處于一個順序過程中,在這個過程中決策是可能的,因此,這種自監督的學習程序應該是適用的。
無監督和自監督強化學習
無監督或自監督強化學習應該滿足兩個標準:首先其所學習的行動應該是以有意義的方式控制世界,此外,其能夠提供一些機制來學習以盡可能多的方式控制自身行動。
公式化自監督 RL 目標最直接方法是將其構建為達到目標狀態的問題,該問題對應于訓練目標條件策略 π(a|s, g),并選擇一些獎勵函數 r(s, g)。雖然這個獎勵函數本身可能構成一個手動設計的目標,但同時也可以推導出一個框架,其中獎勵函數是解決定義明確推理問題的結果,例如預測最有可能導致特定結果動作的問題。這個問題公式與密度估計 、變分推理 、基于模型的強化學習和探索相關聯。
一個經過訓練以達到所有可能目標的策略能從世界中學到什么?正如最近的研究和 RL 中的經典文獻所指出的,解決這種目標制約的 RL 問題對應于學習一種動力學模型。從直觀上講,要想實現任何潛在的預期結果,就需要深入理解行動如何影響長期環境。當然,有人可能會想,為什么不直接學習基于模型的 RL 中更常用的動態模型呢?模型學習也可能是利用不同數據集的有效方法,而不需要特定用戶提供目標。因此,如果 ML 系統的最終目標是帶來預期的結果,我們可以預測最終得出的目標和期望的目標一致。
然而,當前方法會受到許多限制,即使是 goalreaching 條件下的 RL 方法也難以使用、穩定性不好。但更重要的是,goalreaching 并不涵蓋 RL 中可以指定的全部可能任務。即使智能體學會了在給定環境中成功完成所有可能的結果,也可能不會存在一個單一的期望結果來最大化任意用戶指定的獎勵函數。這種以目標為條件的策略可能已經學習了強大且廣泛適用的特征,并且可以很容易地針對下游任務進行微調,但對未來工作而言,一個有趣的問題是,更好地理解更普遍的自監督目標是否能夠消除這種限制。目前,研究者已經提出了許多用于無監督獲得技能的方法,因此,我們可以合理地提問,是否可以在此基礎上推導出更普遍和更有原則的自監督強化學習目標。
離線強化學習
如前所述,即使在是在在線收集無法實現的情況下,離線 RL 也 可以應用自監督或無監督 RL 方法,并且此類方法能夠作為將大型多樣化數據集納入自監督 RL 中的最強大的工具之一。這對于使其成為真正可行且通用的大規模表示學習工具至關重要。但是,離線 RL 提出了很多挑戰,其中最重要的是需要它回答反事實問題:給定顯示出結果的數據,我們是否可以預測在采取不同的行動時會發生什么?這非常具有挑戰性。
盡管如此,對離線 RL 的理解在過去幾年取得了重大進展。除了了解分布轉移如何影響離線 RL 之外,離線 RL 算法的性能也得到了顯著提升。領域內開發出的一些新算法能夠提供穩健性保證、離線預訓練后的在線微調,以及解決了離線 RL 設置中的一系列其他問題。

自監督真實世界機器人系統 RECON,經過訓練,該系統可以在從未見過的環境中執行導航任務。

使用離線 RL 訓練的自監督真實世界機器人操作系統 Actionable Models,執行各種目標達成任務。該系統也可以作為通用預訓練,以加速通過傳統獎勵在下游任務上的獲取。
此外,離線 RL 的進展也可能顯著提升自監督 RL 方法的適用性。使用離線 RL 工具,我們可以構建不需要任何自身探索的自監督 RL 方法。與上文提到的「虛擬游戲」(virtual play)非常相似,我們可以結合離線 RL 與目標條件策略,以完全從以往收集的數據中學習。然而,重大挑戰依然存在。離線 RL 算法繼承了標準或深度 RL 學習的很多困難,包括對超參數的敏感性。并且,由于我們無法執行多次在線實驗來確定最佳超參數,這些困難會進一步加劇。在監督學習,我們可以使用驗證集來處理這些問題,但離線 RL 中缺少相應的對等集(equivalent)。我們需要更穩定和更可靠的算法以及更有效的評估方法,以使離線 RL 方法真正得到廣泛適用。
文中動圖出自:https://medium.com/@sergey.levine/understanding-the-world-through-action-rl-as-a-foundation-for-scalable-self-supervised-learning-636e4e243001