基于語言代理樹搜索(LATS)和GPT-4o攻克復雜的LLM決策問題 原創
本文將通過一個完整的財務決策方面的案例來展示如何將語言代理樹搜索與GPT-4o模型相結合以增強LLM決策能力。
簡介
大型語言模型(LLMs)在執行涉及復雜推理的自然語言任務方面表現出了非凡的能力。因此,這些模型已經發展成為能夠規劃、制定戰略和解決復雜問題的代理。然而,當涉及到在不確定性下做出決策時,挑戰依然存在,因為結果不是確定性的,或者在不斷變化的環境中需要自適應決策,特別是在每一步都影響下一步的多步驟場景中。因此,我們需要更先進的能力……
這就是GPT-4的高級推理能力和語言代理樹搜索(LATS,Language Agent Tree Search)結合起來解決這些挑戰的地方。LATS采用了一種動態的、基于樹的搜索方法,增強了GPT-4o的推理能力。通過將蒙特卡洛樹搜索(MCTS)與LLM集成,LATS統一了推理、行動和規劃,創建了一個更深思熟慮和自適應的問題解決框架。這種強大的組合可以改進決策,更穩健地處理復雜任務,為將語言模型部署為自主代理確立了新的標準。
“搜索”是GenAI問題解決中缺失的部分嗎?
計算問題求解可以廣義地定義為“在組合問題空間中搜索”,通常用樹結構來描述。深度優先搜索(DFS)和廣度優先搜索(BFS)是探索此類解空間的基本方法。深度搜索力量的一個顯著例子是AlphaGo的“第37手”(https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol),它展示了如何通過廣泛的探索產生創新的、超越人類的解決方案。
與遵循預定義路徑的傳統方法不同,LLM可以通過基于上下文預測潛在結果、策略或操作,在解決方案空間內動態生成新的分支。這種能力使LLM不僅可以導航,還可以擴展問題空間,使其在問題結構不完全清楚、不斷演變或高度復雜的情況下非常強大。
基于元生成算法的推理時間推理(MGA)
在訓練過程中,縮放計算因其提高模型性能的能力而得到廣泛認可。然而,在推理過程中,縮放計算的好處仍未得到充分探索。MGA(元生成算法,Meta Generation Algorithms)通過在推理過程中放大計算資源提供了一種新方法……
與傳統的令牌級生成方法不同,元生成算法采用高階控制結構,如規劃、具有多個模型調用的循環、自反射、任務分解和動態調節。這些機制使模型能夠端到端地執行任務,從而模仿通常被稱為“系統二”思維模式的高級認知過程。
【推理時間推理(MGA)算法摘要】
令牌級生成算法
- 解碼算法:貪婪解碼、波束搜索、推測解碼等。
- 令牌級搜索空間:logits、下一個令牌分布、概率分數
元生成算法
- 控制循環多個模型調用CoT
- 搜索算法ToT、GoT、MCTS
- 細化算法:自我反思、自我修正
因此,單向元生成算法可以通過將搜索集成到生成過程中來增強LLM推理。在推理過程中,MGA動態探索更廣闊的解決方案空間,使模型能夠推理潛在結果并實時調整策略。通過生成多條路徑并評估其可行性,元生成算法使LLM能夠模擬類似于傳統搜索方法的更深入、更復雜的推理。這種方法不僅擴展了模型生成新見解的能力,而且改善了信息不完整或不斷變化的情況下的決策。
通常,思想樹(ToT)和思維圖(GoT)等技術被用來有效地導航組合解空間。
- ToT(2*)通過將潛在結果結構化為樹枝,促進對多條路徑的探索,從而實現分層決策。
- GoT(6*)映射了想法之間的復雜關系,使模型能夠動態調整和優化其推理路徑。
- CoT(5*)提供了一步一步的推理,將連續的思想聯系起來,提高了生成的連貫性和深度。
為什么MCTS算法更好些?
在思想樹(ToT:Tree of Thoughts)方法中,深度優先搜索(DFS)或廣度優先搜索(BFS)等傳統方法可以對這棵樹進行導航,但它們的計算成本很高,因為它們是系統地、詳盡地探索每一條可能的路徑。
蒙特卡洛樹搜索(MCTS)是對這一點的改進,它模擬了不同的動作結果,并根據這些模擬更新了樹。具體地說,MCTS算法使用一個“選擇”過程,在這個過程中,它使用一種平衡探索(嘗試新路徑)和利用(選擇已知的好路徑)的策略來選擇決策節點。這是由一個稱為上置信區間(UCB)的公式指導的。
UCB公式包括兩個關鍵部分:
- 探索項:這表示選擇節點的潛在回報,并通過模擬計算得出。
- 利用項:這會減少你進入某條路徑的深度,這意味著如果一條路徑被過度探索,算法可能會轉向一條探索較少的路徑,即使它最初看起來不太有希望。
通過使用UCB選擇節點,用LLM模擬結果(獎勵),并在樹上反向傳播獎勵,MCTS算法將有效地平衡探索新策略和利用已知成功策略之間的關系。
UCB公式的第二部分是“利用項”,隨著你深入探索特定路徑,該項會減少。這種減少可能會導致選擇算法切換到決策樹中的另一條路徑,即使該路徑的即時獎勵較低,因為當該路徑的探索較少時,利用項仍然較高。
使用UCB公式進行節點選擇、使用LLM模擬進行獎勵計算和反向傳播是MCTS算法的本質。
實戰案例:財務決策實施方案
LATS操作(1*):https://arxiv.org/pdf/2310.04406
為了說明問題,我們將使用語言代理樹搜索(LATS)算法來解決在當今宏觀經濟環境下提出最優投資策略的挑戰性問題。我們將以《國際貨幣基金組織世界經濟展望報告》為背景,簡要總結該文件,為大型語言模型提供宏觀經濟狀況信息。注意,在這個案例實現技術中,我們沒有使用時下流行的RAG技術。下面,我們來分析一個使用LATS算法搜索解決方案空間的示例。
第一次迭代:
1.選擇
我們從根節點開始,由于這是第一次LATS迭代,我們將選擇LLM生成的所有初始決策節點(A、B和C節點),并模擬它們的結果。
2.模擬和反向傳播
下一個LLM根據其上下文“模擬”每種策略,并為每個“節點”分配以下“獎勵”——投資回報。
- 策略A:5000美元
- 策略B:7000美元
- 策略C:4000美元
3.擴展
根據選擇,策略B具有最高的UCB1值(因為所有節點都在相同的深度)。因此,我們通過模擬其子節點僅擴展策略B。
B節點擴展,因為它具有更高的模擬獎勵值
第二次迭代:
1.選擇
由于B1和B2策略沒有模擬,因此它們的UCB分數是并列的,兩個節點都將被模擬。
2.模擬兩個節點
- 模擬B1:LLM預測B1的回報為8500美元。
- 模擬B2:LLM預測B2的回報為7500美元。
3.反向傳播
每次模擬后,模擬結果都會在樹上反向傳播,更新父節點的值。這一步可確保新信息的影響在整個樹中得到反映。
更新策略B的值:策略B現在需要反映B1和B2的結果。一種常見的方法是對B1和B2的獎勵進行平均,以更新策略B的值。現在,基于其子節點的結果,策略B的更新值為8000美元。
反向傳播后,策略B的獎勵值會更新
4.重新計算UCB分數
反向傳播后,重新計算樹中所有節點的UCB得分。這次重新計算使用更新后的值(平均獎勵)和訪問次數,確保每個節點的UCB1分數準確反映其潛在獎勵和探索量。
UCB=(探索/獎勵項)+(利用項)
需要再次強調的是,在不斷深入探索的路徑上,所有節點的利用項都會減少。
5.下一步選擇和模擬
選擇B1以進一步擴展(因為它具有更高的獎勵)到子節點:
- B1a:“投資人工智能公司”
- B1b:“投資綠色科技”
B1節點因獎勵更高而進一步擴展
6.反向傳播
子節點獎勵向上反向傳播
B1獎勵更新為(9200+6800)/2=8000
B獎勵更新為(8000+7500)/2=7750
7.UCB計算
反向傳播后,重新計算所有節點的UCB值。假設由于探索因子的衰減,B2現在的UCB得分高于B1a和B1b。如果B1被進行了廣泛探索(從而減少對其子節點的探索項),這種情況可能會發生。該算法不再繼續擴展B1的子代,而是轉向探索B2,由于其未探索的潛力,即更高的利用價值,B2變得更具吸引力。
當探索通過節點的路徑時,節點的利用價值會降低,這可能會觸發分支切換——通過新決策節點的新路徑需要進一步探索。
這個例子展示了MCTS如何根據新信息動態調整其搜索路徑,確保算法在進展過程中保持高效并專注于最有前景的策略。
基于Azure平臺的OpenAI GPT-4o模型實現
接下來,我們將使用GPT-4o模型構建一個“財務顧問”,實戰性地實現一下LATS算法。(有關完整的代碼,請參考??Github倉庫??)
提示:為了進行準確的分析,我使用7月24日的國際貨幣基金組織《世界經濟展望》報告作為我的LLM背景進行模擬,即生成子節點和為決策節點分配獎勵……
以下??視頻??給出項目代碼的運行方式展示:
LATS在決策樹上迭代MCTS,創建新節點并進行樹搜索
該代碼中利用開源的graphviz庫來直觀地描述在執行投資策略模擬期間生成的決策樹。但是,因為決策樹太寬,無法放入一張圖片中;所以,我添加了一點代碼片斷,方便展示樹的樣子。當然,你可以在??Github倉庫??中找到一棵完整的示例決策樹……
運行MCTS示例代碼,以便在當前宏觀經濟環境中找到最佳投資策略
從生成的決策樹中截取的屏幕截圖
以下是LATS推斷出的最佳策略……
Optimal Strategy Summary: The optimal investment strategy is structured around several key steps influenced by the IMF report. Here's a concise summary of each step and its significance:
1. **Diversification Across Geographies and Sectors:**
- **Geographic Diversification:** This involves spreading investments across regions to mitigate risk and tap into different growth potentials. Advanced economies like the U.S. remain essential due to their robust consumer spending and resilient labor market, but the portfolio should include cautious weighting to manage risks. Simultaneously, emerging markets in Asia, such as India and Vietnam, are highlighted for their higher growth potential, providing opportunities for higher returns.
- **Sector Diversification:** Incorporating investments in sectors like green energy and sustainability reflects the growing global emphasis on renewable energy and environmentally friendly technologies. This also aligns with regulatory changes and consumer preferences, creating future growth opportunities.
2. **Green Energy and Sustainability:**
- Investing in green energy demonstrates foresight into the global shift toward reducing carbon footprints and reliance on fossil fuels. This is significant due to increased governmental supports, such as subsidies and policy incentives, which are likely to propel growth within this sector.
3. **Fintech and E-Commerce:**
- Allocating capital towards fintech and e-commerce companies capitalizes on the digital transformation accelerated by the global shift towards digital platforms. This sector is expected to grow due to increased adoption of online services and digital payment systems, thus presenting promising investment opportunities.
上述內容對應的中文意思是:
最優策略概述:最優投資策略圍繞受國際貨幣基金組織報告影響的幾個關鍵步驟構建。以下是對每個步驟及其意義的簡要總結。
1.跨地域和部門的多樣化
- 地域多元化:這涉及將投資分散到各個地區,以降低風險并挖掘不同的增長潛力。由于美國等發達經濟體強勁的消費支出和有彈性的勞動力市場,它們仍然至關重要,但投資組合應包括謹慎的權重來管理風險。與此同時,印度和越南等亞洲新興市場因其更高的增長潛力而受到關注,為更高的回報提供了機會。
- 行業多元化:將投資納入綠色能源和可持續發展等行業反映了全球對可再生能源和環保技術的日益重視。這也與監管變化和消費者偏好相一致,創造了未來的增長機會。
2.綠色能源和可持續性
- 投資綠色能源表明了對全球減少碳排放和依賴化石燃料的轉變的遠見。由于政府支持的增加,如補貼和政策激勵,這可能會推動該行業的增長。
3.金融科技和電子商務
- 利用全球向數字平臺轉變加速的數字化轉型,向金融科技和電子商務公司分配資本。由于在線服務和數字支付系統的日益普及,該行業有望增長,從而帶來有前景的投資機會。
結論
通過集成語言代理樹搜索(LATS)技術,我們可以實現利用大型語言模型的推理能力來動態模擬和評估潛在策略。這種技術組合允許構建決策樹,其不僅可以描述決策的邏輯進程,而且適應大型語言模型通過模擬和反思提供的不斷變化的背景和見解信息。
注意:除非另有說明,本文中所有圖片均由作者本人提供。
參考文獻
【1】《Language Agent Tree Search: Unifying Reasoning, Acting, and Planning in Language Models》(語言代理樹搜索:統一語言模型中的推理、行為和規劃);作者:Zhou等。
【2】《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》(思維樹:使用大型語言模型進行深思熟慮的問題解決);作者:Yao等。
【3】《The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey》(用于推理、規劃和工具調用的新興人工智能代理架構的前景綜述);作者:Tula Masterman,Mason Sawtell,Sandi Besen和Alex Chao。
【4】《From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models》(從解碼到元生成:大型語言模型的推理時間算法);作者:Sean Welleck,Amanda Bertsch,Matthew Finlayson,Hailey Schoelkopf,Alex Xie,Graham Neubig,Ilia Kulikov和Zaid Harchaoui。
【5】《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》(思維鏈促進大型語言模型中的啟發式推理);作者:Jason Wei,Xuezhi Wang,Dale Schuurmans,Maarten Bosma,Brian Ichter,Fei Xia,Ed H. Chi,Quoc V. Le和Denny Zhou。
【6】《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》(思維圖:用大型語言模型解決復雜問題);作者:Maciej Besta,Nils Blach,Ales Kubicek,Robert Gerstenberger,Micha? Podstawski,Lukas Gianinazzi,Joanna Gajda,Tomasz Lehmann,Hubert Niewiadomski,Piotr Nyczyk和Torsten Hoefler。
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:??Tackle Complex LLM Decision-Making with Language Agent Tree Search (LATS) & GPT-4o??,作者:Ozgur Guler
