LLM+模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

作者：機器之心 2023-06-15 14:06:13

如何充分發揮 LLM 的規劃和推理能力，同時降低計算成本呢？

GPT-4 等大型語言模型（LLM）在許多推理任務上表現出色，然而，大部分現有研究僅關注靜態環境下的任務，如回答問題或解數學題。那么，LLM 能否在真實世界中完成復雜的交互式任務呢？例如，如果我們想制作一個智能體（agent），讓它在物理世界里完成一些實驗，比如測試一個物體是否導電，我們可以使用 LLM 嗎？這類復雜交互式任務（complex interactive tasks）具有很大的挑戰性，因為它要求 LLM 不僅能理解動態變化的真實場景，還需要具備諸如長期規劃（long-horion planning）、任務分解（task 的 composition）、記憶儲存（memorization）、常識推理（commonsense reasoning）、異常處理（exception handling）等高階認知和推理能力。

面對這種情況，如何充分發揮 LLM 的規劃和推理能力，同時降低計算成本呢？認知心理學名著《思考，快與慢》（Thinking, Fast and Slow）中介紹的雙過程理論（dual propcess theory）帶來了很多啟示。該理論認為，人類認知過程需要兩個密不可分的系統，其中 System 1 負責快速直覺式思考，而 System 2 則負責慢速分析式思考。

論文鏈接：https://arxiv.org/abs/2305.17390
項目網站：https://yuchenlin.xyz/swiftsage/

基于此，AI2 (Allen Institute for AI) 的研究人員提出了 SwiftSage 智能體框架。他們通過模仿學習得到一個小型模型，然后將其與 LLM 進行融合。這樣，便可以利用大量數據對小型模型進行微調，使其具備環境和任務相關的知識，并僅在需要時調用大型模型進行高階推理。在 30 個任務上的評估中，SwiftSage 的表現超過了之前的 SayCan、ReAct 和 Relfexion 等方法近 2 倍，并且大幅降低了 LLM 部分的計算成本。

研究背景

以往的研究主要探索了三種方法來解決復雜的交互推理任務，傳統的一些智能體訓練方法包括

1）強化學習（Reinforcement Learning）

將交互式推理任務建模為部分可觀察的馬爾可夫決策過程（Partial Observable Markov Decision Process, POMDP），智能體通過反復嘗試和學習最佳行動策略。常見的方法有 DRRN， KG-A2C，CALM 等。

2）模仿學習（Imitation Learning）

將交互式推理任務建模為序列到序列（Seq2Seq）任務，將過去的行動和當前的環境觀察作為輸入，當前的行動作為輸出，智能體被訓練以模仿人類或專家的行為。Text Decision Transformer 是這個方向的基準方法。

3）利用大型語言模型（Large Language Model，簡稱 LLM）提示

隨著 LLM 的快速發展，尤其是 GPT-4 的出現，將 LLM 應用于復雜的交互式推理任務取得了顯著的成果。除了通過傳統方法直接讓 LLM 根據過往行動和當前環境觀察生成行動外，有研究通過直接調用 LLM 生成 action 候選池再結合環境重排序（SayCan），也有研究引入虛擬的 "think" 行動來生成子目標以實現更高效的行動（ReAct），以及在任務失敗后利用 LLM 總結原因并生成反思以提高下一次嘗試的成功概率（Reflection）等多種方式。

雖然傳統方法在相對簡單的任務中表現優異，但它們在更復雜和具有挑戰性的任務中的泛化能力受限。無論是基于強化學習的方法還是行為克隆（Behavior Cloning），在將大目標分解為多個子任務、實現長期記憶和處理環境中的未知異常（比如在導電性測試中找不到可以使用的燈泡）方面都面臨諸多挑戰。

相較之下，利用 LLM 進行提示的方法展示出了在復雜任務中生成合理計劃和根據人類反饋進行調整的能力，但同樣存在一些問題和局限性。其中一個主要挑戰是每次預測行動都需要調用 LLM，導致整體推理效率低下且成本較高。此外，ReAct 和 Reflection 兩種方法還需要針對每種未知任務類型進行適當的子目標人工標注，否則在現實世界情境中的推廣可能會比較困難。而如何將 LLM 生成的計劃轉化為真實

SwiftSage：融合模仿學習與大模型規劃的全新框架

研究者受到人腦思維雙系統模型理論（Dual Process Theory）的啟發，提出一種全新的結合模仿學習和語言模型（LLM）方法的框架 ——SwiftSage。這一框架為真實世界中的復雜任務帶來了的突破性解決方案。

在認知心理學領域，人腦思維雙系統模型被用于解釋人類思維和決策過程中的兩種獨特方式。根據該理論，人類的認知過程可分為兩個相互關聯但獨立運作的系統：直覺型思維系統（系統 1）和反思型思維系統（系統 2）。

直覺型思維（系統 1）是一種快速、直觀且自動的思考方式，主要依賴于個體的經驗、情感和直覺。這種方式對于解決簡單問題和日常決策具有較高的效率，但在面臨復雜問題和重大決策時可能導致偏差和錯誤。

反思型思維（系統 2），與此相反，則是一種深思熟慮、有意識且理性的思考方式。該方式通過運用邏輯推理、規則和分析，為決策和問題解決提供了更加準確和合理的結果。然而，這種思維方式需要較多的認知資源和時間。

雙系統模型理論的核心觀點在于，人類思維和決策過程并非單一系統所驅動，而是兩個系統之間相互作用、互補和競爭的結果。在許多情況下，直覺型思維系統在決策中發揮主導作用；而在需要深入思考和理性判斷的場合，反思型思維系統的作用則變得更為重要。

AI2 團隊提出的 SwiftSage 框架正是基于人腦思維雙系統模型理論，將模仿學習和 LLM 方法的優勢相互結合，以解決現實世界中的復雜數字任務，展現出了巨大的潛力和前景。

雙模塊推理系統：迅速決策的 Swift + 深思熟慮的 Sage

SwiftSage 是一個由兩個主要模塊組成的框架：迅速決策（Swift）模塊和深思熟慮（Sage）模塊。

Swift 模塊是一個基于 encoder-decoder 的小型語言模型，它能編碼短期記憶內容，例如先前的動作、當前觀察結果、已訪問的位置以及當前環境狀態，并解碼出下一步的行動。該模塊模擬了系統 1 中快速、直觀的思維特點。它的優勢來自于大量的離線數據，通過在模仿學習中采用 behavior cloning 方法，Swift 模塊可以充分了解目標環境中的設定以及更好地掌握任務的定義。

Sage 模塊代表了系統 2 中深思熟慮的思維過程，它利用 LLM（例如 GPT-4）來更好地進行規劃。Sage 模塊包含兩個 LLM Prompting 階段，分別稱為規劃（planning）和融合（grounding）。

在規劃階段，主要目標是引導 LLM 定位所需物品、規劃和追蹤子目標以及檢測和修正潛在的異常和錯誤。通過五個主要問題來實現這一目標，使得智能體能夠更敏銳地捕捉游戲過程中的異常，進而更有可能糾正自身行為。

在融合階段，主要目標是利用規劃階段五個問題的答案和詳細的動作模板，將規劃階段輸出的計劃轉化為一系列實際可執行的動作，這可以稱為動作緩存（action buffer）。與之前的方法不同，Sage 不僅生成下一個即時動作，還包括長期的行動規劃。LLM 收到包含子目標（在規劃階段生成）和支持的行動類型的提示（prompt），使它們能夠生成一系列旨在實現當前子目標的動作（而不是像之前的方法那樣一次生成一個動作）。這樣一來，SwiftSage 進一步降低了動作預測的成本。

為了協調 Swift 和 Sage 模塊，研究者們提出了一種啟發式算法，用于確定何時激活或停用 Sage 模塊以及如何有效地將輸出與動作緩存機制相結合。默認情況下，智能體通常會采用 Swift 模塊。當 Swift 模塊遇到困難時（例如，出現如下圖的四種情況），智能體會改為執行 Sage 模塊產生的動作緩存。

實驗結果：效率、性能和開銷的全方位優秀表現

經過對 ScienceWorld 中的 30 種任務類型進行全面評估之后，SwiftSage 在性能上顯著優于其他方法，取得了領先水平的平均分數 84.7。相較而言，SayCan 的得分僅為 33.8，ReAct 獲得了 36.4 分，而 Reflexion 則達到了 45.3 分。

得益于其獨特的雙系統設計，SwiftSage 在 LLM 推理中所需的每個行動的令牌數量大幅減少，因此在成本效益和效率方面，它比單純依靠 Prompting LLM 方法表現得更為出色。平均來看，為了產生一個行動，Saycan 和 ReAct 需要近 2000 個 token，Reflexion 需要接近 3000 個 token，而 SwiftSage 僅需約 750 個 token。

此外，SwiftSage 在交互式任務中的效率同樣更高。如下圖所示，SwiftSage 能夠在較少的行動數內達到相同的分數。

在展示出卓越表現后，研究者們認為受益于人類認知雙過程理論靈感的 SwiftSage 研究成果具有創新性及領先優勢，無論是在性能、效率還是成本方面。這一獨特框架采用了將較小的語言模型與模仿學習相結合，再輔以 LLM（大型語言模型）的規劃能力，成為解決復雜交互推理任務以及構建通用人工智能的關鍵步驟。SwiftSage 所取得的突破使我們距離充分發揮 LLM 潛力更近一步，從而更有效地解決現實世界中的復雜問題。

結語

AI2 提出的 SwiftSage 成果再次展示了較小的 LM（語言模型）與 LLM（大型語言模型）協作框架的巨大潛力。通過利用較小的 LM 進行任務與環境特定模式的識別，實現了分布內泛化的高效性。同時，盡管 LLM 的零樣本泛化能力和深度思考展現出顯著優勢，但將其輸出應用于現實世界場景仍具有一定挑戰性。研究者認為，采用雙過程智能體，發揮這兩種方法的優點，對解決復雜的交互式推理任務以及構建跨領域的通用智能體具有重要意義。進一步地，我們還可以將 SwiftSage 等模型視為一種利用 LLM 作為控制器或規劃器，用于分解復雜任務并調用 API 工具。

主要作者介紹

Bill Yuchen Lin 林禹臣（AI2）現任 Allen Institute for AI（AI2）研究員。他本科畢業于上海交通大學 IEEE 試點班（2018），博士畢業于 USC 南加州大學（2022）。曾獲得 WWW 2020 Best Paper Runner-Up，TrustNLP Best Paper Award。他多次擔任 NLP 和 ML 領域頂級會議審稿人，Area Chair （ACL2023），多次參與組織 workshop 和 tutorials。他目前的研究興趣在將大語言模型的分析和增強，以及如何利用常識知識構建通用的智能體。

Yejin Choi （UW & AI2）華盛頓大學教授，同時領導 AI2 的 Mosaic 組。她曾獲得 ACL Fellow，MacArthur Fellow，她曾獲得 NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020 等榮譽。

Xiang Ren 任翔（USC）南加州大學副教授，領導 INK Research Lab。曾獲得 Forbes' Asia 30 Under 30，NAACL Outstanding Paper Award 2022，Google Research Scholar, 2022，Facebook Sponsored Research Award, 2021，NSF CAREER Award, 2021 等榮譽。

責任編輯：張燕妮來源：機器之心

計算

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看