Mind Evolution:重塑 LLM 規劃與推理的 AI Agent 技術
大家好,我是肆〇柒。上個月,我發布了一篇關于 Google DeepMind 的 AlphaEvolve 的介紹文章,名為《進化智能體 AlphaEvolve:科學發現與算法優化的新引擎》。在寫“AlphaEvolve”文時,我聯想到同樣是 Google DeepMind 的另外一篇論文“Mind Evolution”。 他們都是應用在 Agent 上的核心算法類文章。所以我回顧了一下,認為這兩篇可以結合起來看。
那么,今天,我們就來聊這項可以優化大型語言模型(LLM)推理能力的技術 —— Mind Evolution。在今年初,AI領域掀起了一股對推理時間擴展(inference-time scaling)技術的探索熱潮。各大實驗室紛紛投入大量資源,爭相發布各自的最新研究成果。行業會議中,相關話題的討論熱度也持續攀升,成為眾多專家和從業者關注的焦點。這是因為推理時間擴展技術是AI Agent運行的核心基礎,它直接關系到Agent在復雜環境中的決策效率和適應能力。只有通過不斷優化推理時間擴展技術,才能讓Agent更好地理解環境、做出精準決策,并高效地完成任務,從而推動AI技術在更多領域的廣泛應用和突破。
而 Google DeepMind 推出的 “心智進化”(Mind Evolution)技術,成為大型語言模型(LLM)在規劃和推理任務上性能提升的一個創新思路。
研究背景
推理時間擴展技術的核心在于讓模型在生成答案的過程中有更多“思考”的機會。這種技術試圖通過允許模型生成多個候選答案,逐步審查和修正這些答案,從而探索不同的解決方案路徑。例如,傳統方法中,一個模型可能一次性生成一個旅行計劃,而推理時間擴展技術則允許模型先生成多個旅行計劃的初稿,然后逐一檢查每個計劃是否符合預算、時間安排是否合理、是否覆蓋了所有用戶感興趣的景點等約束條件。如果某個計劃不符合要求,模型可以對其進行修正,甚至重新生成新的計劃,直到找到最優解。
這種技術的靈感來源于人類解決問題的過程。當我們面臨一個復雜的任務時,通常不會急于給出一個最終答案,而是會先思考多種可能的解決方案,然后逐一評估這些方案的可行性,并根據評估結果進行調整。例如,在規劃一次旅行時,我們可能會先列出幾個不同的行程安排,然后考慮每個行程的優缺點,比如時間是否充足、預算是否超支、是否能涵蓋所有想去的地方等。通過這種方式,我們可以逐步優化行程,最終得到一個滿意的旅行計劃。
然而,以往的形式化方法在實際應用中存在諸多局限性。以旅行規劃任務為例,用戶的需求往往是用自然語言描述的,比如“我希望這次旅行能去海邊,預算在 5000 元以內,時間盡量寬松一些”。要將這樣的自然語言描述轉化為形式化的符號表示,需要耗費大量的人力和專業知識。研究人員需要仔細分析用戶的需求,將其分解為一個個具體的約束條件,比如“旅行目的地必須包含海邊城市”“總花費不超過 5000 元”“每天的行程安排不超過 8 小時”等。這個過程不僅耗時耗力,而且很容易出現錯誤或遺漏。例如,用戶可能沒有明確提到某個具體的約束條件,但這個條件對于生成一個滿意的旅行計劃卻是至關重要的。如果研究人員在形式化過程中忽略了這個條件,最終生成的旅行計劃可能就無法滿足用戶的真實需求。
研究者提出 Mind Evolution,正是為了解決這些問題。它無需對問題進行形式化,而是直接在自然語言空間中優化候選解。這種技術借鑒了自然選擇中的生物進化過程,通過生成、重組和優化候選解決方案,逐步逼近最優解。例如,在旅行規劃任務中,Mind Evolution 可以直接根據用戶提供的自然語言描述生成多個旅行計劃的初稿,然后通過評估每個計劃的質量,選擇質量較高的計劃進行重組和優化,最終生成一個高質量的旅行計劃。
Mind Evolution(心智進化)是一種基于遺傳的進化搜索策略,它在自然語言空間中運行
上圖展示了Mind Evolution 如何針對旅行規劃任務將一個解候選群體進化為更高質量的候選解。候選群體通過一個迭代過程得到改進,在每次迭代中,使用一個大型語言模型(LLM)來重組和優化候選解。
Mind Evolution 技術原理
核心概念與靈感來源
Mind Evolution 技術的核心是遺傳算法和搜索算法。遺傳算法是一種模擬生物進化的優化算法,它通過選擇、交叉和變異等操作,逐步優化候選解的質量。在 Mind Evolution 中,每個候選解都被視為一個“個體”,其質量由適應度函數來衡量。適應度函數根據候選解的優劣程度為其分配一個適應度值,適應度值越高,表示候選解越接近最優解。例如,在旅行規劃任務中,適應度函數可能會根據旅行計劃是否符合預算、時間安排是否合理、是否覆蓋了所有用戶感興趣的景點等因素來計算適應度值。一個符合所有約束條件且行程安排合理的旅行計劃將獲得較高的適應度值。
搜索算法則負責在自然語言空間中尋找候選解。它通過隨機生成初始解,然后逐步探索解空間,尋找更優的解。在 Mind Evolution 中,搜索算法與遺傳算法相結合,既保證了搜索的多樣性,又提高了搜索的效率。例如,在旅行規劃任務中,搜索算法可以隨機生成多個初始旅行計劃,然后通過遺傳算法中的選擇、交叉和變異操作,逐步優化這些計劃,最終找到一個高質量的旅行計劃。
算法流程
種群初始化
種群初始化是 Mind Evolution 的第一步,它決定了整個進化過程的起點。在旅行規劃任務中,種群初始化的過程如下:首先,根據用戶提供的旅行需求(如目的地、預算、時間等),LLM 生成一系列初始旅行計劃。這些初始計劃可能包含不同的行程安排、不同的景點選擇和不同的時間分配。
例如,一個初始計劃可能將第一天安排在海邊城市,第二天安排在歷史文化名城,而另一個初始計劃可能將兩天都安排在海邊城市,但增加了更多的水上活動。這些不同的初始計劃構成了初始種群,為后續的進化過程提供了多樣化的候選解。從理論角度來看,種群初始化的目的是為了提供一個足夠多樣化的初始解集合,以便后續的進化過程能夠在更廣泛的解空間中進行探索。
根據遺傳算法的理論,初始種群的多樣性對于算法的全局搜索能力和收斂速度至關重要。如果初始種群過于單一,可能會導致算法過早收斂到局部最優解,而無法找到全局最優解。因此,研究人員需要在種群初始化階段引入足夠的隨機性,以確保初始種群中包含多種不同的解。同時,為了提高算法的效率,初始種群的規模也需要根據任務的復雜度和計算資源的限制進行合理選擇。例如,在一個簡單的 3 天旅行規劃任務中,種群規模可以設置為 50,而在一個復雜的 7 天旅行規劃任務中,種群規??梢栽O置為 100。
詳細的超參數設置可以參考下表。
Mind Evolution 中超參數的定義
上表中除非另有說明,本文中的提到的實驗均使用默認值。前四個超參數的乘積給出了生成的候選解的最大數量(默認設置為800)。
適應度評估
適應度評估是 Mind Evolution 中的關鍵環節,它決定了候選解的質量。適應度函數根據候選解的優劣程度為其分配一個適應度值,適應度值越高,表示候選解越接近最優解。在旅行規劃任務中,適應度函數通常會考慮多個因素,如旅行計劃是否符合預算、時間安排是否合理、是否覆蓋了所有用戶感興趣的景點等。
例如,一個旅行計劃如果超出了預算,適應度值會相應降低;如果時間安排不合理,比如某個景點的停留時間過短或過長,適應度值也會降低;如果旅行計劃沒有覆蓋用戶感興趣的景點,適應度值同樣會降低。從理論角度來看,適應度函數的設計是遺傳算法中的一個關鍵問題。
由遺傳算法,適應度函數不僅需要能夠準確地評估候選解的質量,還需要能夠為算法提供足夠的搜索方向信息。一個良好的適應度函數應該能夠清晰地反映候選解之間的優劣關系,并且能夠引導算法向更優解的方向進行搜索。在 Mind Evolution 中,適應度函數的設計需要綜合考慮任務的約束條件和目標函數,以確保算法能夠在自然語言空間中有效地進行優化。在旅行規劃任務中,適應度函數可能會根據旅行計劃是否符合預算、時間安排是否合理、是否覆蓋了所有用戶感興趣的景點等因素來計算適應度值。這種多維度的評估方式不僅能夠準確地評估候選解的質量,還能夠為算法提供豐富的搜索方向信息,從而提高算法的優化效率。
除了適應度值外,適應度函數還會提供詳細的文本反饋,指出候選解中存在的問題和改進方向。例如,對于一個超出預算的旅行計劃,適應度函數可能會反饋:“該旅行計劃的總花費為 6000 元,超出了預算 1000 元。建議減少在高檔酒店的住宿天數,或者選擇更經濟實惠的交通方式?!?這種文本反饋為 LLM 提供了明確的改進方向,使其能夠在后續的進化過程中對候選解進行優化。
這種反饋機制引出了 Mind Evolution 中另一個關鍵流程——Refinement through Critical Conversation (RCC),它通過模擬批判性對話來優化候選解。具體來說,RCC 過程首先提出一個初始解決方案,然后對其進行評估并接受來自評論者的反饋,之后由作者角色提出改進后的方案。這個過程不斷迭代,直至方案達到滿意的質量。比如下圖展示了 RCC 過程的運作機制。
通過批判性對話(RCC)進行細化的過程。首先提出一個初步解決方案,然后對其進行評估并接受批評者的反饋,之后作者提出一個改進后的解決方案,隨后該過程不斷迭代
在該過程中,初始解決方案被提出后,會經歷評估和反饋環節,評論者角色對方案進行分析并指出問題所在。隨后,作者角色基于這些反饋提出改進后的解決方案。這一迭代過程持續進行,直至獲得高質量的候選解。這種基于對話的優化方式不僅提升了解決方案的質量,還增強了模型對復雜任務的理解和應對能力。
選擇操作
選擇操作是遺傳算法中的一個重要環節,它決定了哪些候選解能夠進入下一代。在 Mind Evolution 中,選擇操作通常采用輪盤賭選擇法。這種方法根據候選解的適應度值,按照一定的概率選擇候選解進入下一代。適應度值越高的候選解,被選中的概率越高。
例如,在旅行規劃任務中,如果一個旅行計劃的適應度值為 0.9,另一個旅行計劃的適應度值為 0.7,那么第一個旅行計劃被選中的概率將高于第二個旅行計劃。從理論角度來看,選擇操作的目的是為了在保持種群多樣性的同時,逐步提高種群的整體質量。
從遺傳算法理論可知,選擇操作需要在選擇優質解和保持種群多樣性之間找到一個平衡。如果選擇操作過于偏向優質解,可能會導致種群過早收斂到局部最優解,而無法找到全局最優解;如果選擇操作過于偏向多樣性,可能會導致算法的優化效率降低。因此,選擇操作需要根據任務的復雜度和種群的當前狀態,動態調整選擇策略。在 Mind Evolution 中,輪盤賭選擇法是一種常用的選擇策略,它通過根據適應度值分配選擇概率,既能夠優先選擇優質解,又能夠給予低適應度解一定的機會,從而在保持種群多樣性的同時,逐步提高種群的整體質量。
然而,為了保持種群的多樣性,避免過早收斂到局部最優解,選擇操作也會給予低適應度解一定的機會。例如,即使一個旅行計劃的適應度值較低,它仍然有一定的概率被選中進入下一代。這樣可以確保種群中包含多種不同的解,為后續的進化過程提供更多的可能性。
交叉與變異操作
交叉與變異操作是遺傳算法中的兩個重要操作,它們通過組合和改變候選解的特征,生成新的候選解。在 Mind Evolution 中,交叉操作通常通過選擇兩個或多個父代候選解,將它們的特征進行組合,生成新的子代候選解。例如,在旅行規劃任務中,可以將一個父代旅行計劃中的景點選擇與另一個父代旅行計劃中的時間安排進行組合,生成一個新的旅行計劃。這種組合方式可以產生新的解,這些解可能包含父代解的優點,從而提高種群的整體質量。從理論角度來看,交叉操作的目的是為了通過組合不同候選解的特征,產生新的解,從而增加種群的多樣性。根據遺傳算法的理論,交叉操作能夠有效地探索解空間中的不同區域,找到更優的解。在 Mind Evolution 中,交叉操作不僅能夠組合不同旅行計劃的優點,還能夠通過引入新的特征組合,生成具有創新性的旅行計劃。例如,通過將一個注重文化體驗的旅行計劃與一個注重美食探索的旅行計劃進行組合,可能會生成一個既包含文化深度游又包含美食探索的綜合旅行計劃,從而滿足用戶多樣化的需求。
變異操作則通過隨機改變候選解的某些特征,增加種群的多樣性。例如,在旅行規劃任務中,可以隨機改變某個旅行計劃中某個景點的停留時間,或者隨機更換某個景點。這種隨機性可以避免種群過早收斂到局部最優解,為進化過程提供更多的可能性。從理論角度來看,變異操作的目的是為了在種群中引入隨機性,從而避免算法陷入局部最優解。根據遺傳算法的理論,變異操作能夠通過隨機改變候選解的特征,為算法提供新的搜索方向,增加算法的全局搜索能力。在 Mind Evolution 中,變異操作不僅能夠隨機改變旅行計劃中的某些細節,還能夠通過引入新的特征變化,生成具有創新性的旅行計劃。例如,通過隨機改變某個景點的停留時間,可能會發現一個新的時間安排方式,使得旅行計劃更加合理,從而提高旅行計劃的質量。
島嶼模型應用
島嶼模型是 Mind Evolution 中的一個重要策略,它通過將種群劃分為多個子種群(島嶼),并讓這些子種群獨立進化,來維持種群的多樣性。在旅行規劃任務中,每個島嶼可以專注于探索不同類型的旅行計劃。例如,一個島嶼可以專注于探索文化深度游類型的旅行計劃,另一個島嶼可以專注于探索美食探索游類型的旅行計劃。這些島嶼在獨立進化過程中,會逐漸形成各自的特點和優勢。從理論角度來看,島嶼模型的目的是為了在保持種群多樣性的同時,提高算法的全局搜索能力和優化效率。根據遺傳算法的理論,島嶼模型通過將種群劃分為多個子種群,每個子種群可以獨立地進行進化,從而避免了全局種群過早收斂到局部最優解的問題。同時,島嶼之間的遷移操作能夠促進不同子種群之間的信息交流,加速全局最優解的搜索進程。在 Mind Evolution 中,島嶼模型不僅能夠維持種群的多樣性,還能夠通過周期性的遷移操作,將不同島嶼上的優質解進行組合和優化,從而提高種群的整體質量。
在進化過程中,島嶼之間會進行周期性的遷移操作。一些在某個島嶼上表現優異的旅行計劃會被遷移到其他島嶼,與其他島嶼的旅行計劃進行交流和融合。這種遷移操作可以加速全局最優解的搜索進程。例如,一個在文化深度游島嶼上表現優異的旅行計劃,可能會被遷移到美食探索游島嶼,與其他美食探索游類型的旅行計劃進行組合,生成一個新的旅行計劃,這個新的旅行計劃可能既包含了文化深度游的優點,又包含了美食探索游的優點,從而提高了種群的整體質量。
關鍵創新點
Mind Evolution 技術的關鍵創新點在于它無需對問題進行形式化,而是直接在自然語言空間中優化候選解。這種創新不僅降低了任務求解的門檻,還提高了模型在實際應用中的適用性。例如,在旅行規劃任務中,用戶通常會用自然語言描述他們的需求和偏好,如“我希望這次旅行能去海邊,預算在 5000 元以內,時間盡量寬松一些”。這些需求和偏好很難用形式化的符號表示,但 Mind Evolution 可以直接在自然語言空間中理解和處理這些需求,生成高質量的旅行計劃。這種創新的意義在于,它使得 LLM 能夠更廣泛地應用于各類自然語言規劃任務,而無需耗費大量的人力和專業知識進行任務形式化預處理。例如,在創意寫作任務中,用戶可能要求生成一首包含特定隱寫信息的詩歌。這種任務很難用形式化的符號表示,但 Mind Evolution 可以為用戶提供高質量的解決方案。
實驗設計與結果分析
實驗設置
測試基準
TravelPlanner 基準模擬了用戶根據自身偏好和約束條件規劃旅行的真實場景。在該基準中,任務難度隨著旅行天數的增加和用戶提出約束條件的復雜度提升而遞增。例如,從簡單的 3 天城市短途旅行規劃,到復雜的 7 天跨國旅行規劃,涉及到多城市間交通銜接、不同貨幣預算換算、當地文化習俗遵守等復雜因素。Natural Plan 基準則涵蓋了 Trip Planning 和 Meeting Planning 任務。Trip Planning 任務聚焦于多城市旅行路線規劃,需滿足城市間航班直飛、停留天數符合用戶要求等約束;Meeting Planning 任務側重于會議安排,要在參會人員的時間表、會議地點、會議時長等約束下,盡可能安排更多的有效會議。而新提出的 StegPoet 基準則別具一格,它要求 LLM 在創作詩歌、故事等創意文本時,將特定的隱藏信息(如數字序列)通過特定編碼方式嵌入文本,同時保證文本的連貫性和藝術性,這一任務對 LLM 的規劃能力和創意生成能力提出了全新挑戰。
模型選擇
Gemini 1.5 Flash 作為默認的 LLM,憑借其快速的推理速度和較低的計算資源需求,成為實驗的首選模型。它能在短時間內生成大量候選解決方案,為 Mind Evolution 的進化過程提供高效支撐。然而,面對一些極為復雜、資源消耗大的任務實例,Gemini 1.5 Flash 可能在有限的代數內難以求解。此時,兩階段方法應運而生,即當 Flash 模型無法在規定代數內找到滿意解時,會無縫切換至 Gemini 1.5 Pro 模型進行深度攻堅。Pro 模型憑借其更強大的生成能力和更精準的推理性能,對遺留的復雜任務進行深度探索和優化,確保最終所有任務都能得到高質量的解決方案。
基線方法對比
為全面評估 Mind Evolution 的性能,研究人員將其與 1-Pass、Best-of-N、Sequential Revision + 等基線方法進行對比。1-Pass 方法如同 LLM 的 “直覺反應”,直接一次性生成答案,不經過任何迭代優化,其優點是速度快,但面對復雜任務時,生成答案的質量往往難以保證。Best-of-N 方法則通過大量獨立采樣,試圖在眾多候選答案中選取較優解。雖然在一定程度上提高了答案質量,但這種方法如同 “廣種薄收”,需要消耗大量計算資源生成海量候選答案,且無法對答案進行針對性改進。Sequential Revision + 方法在 Best-of-N 基礎上增加了多輪修訂環節,對每個候選答案進行逐步修正,但其修訂過程缺乏全局視角,難以對整個解進行全面優化。這些基線方法從不同角度為 Mind Evolution 的優勢展現提供了參照系。
結果呈現與綜合分析
TravelPlanner 基準
在 TravelPlanner 驗證集上,Mind Evolution 取得了令人驚艷的 95.6% 成功率,而 1-Pass 方法僅達到 5.6%,Best-of-N 方法也只有 55.6%,Sequential Revision + 方法相對較好,但也只達到 82.8%。當啟用兩階段方法后,Mind Evolution 更是實現了 100% 的成功率。深入分析不同難度級別下的表現,在 3 天易難度旅行規劃任務中,各方法成功率相對接近,但隨著旅行天數增加至 5 天、7 天,任務難度攀升,Mind Evolution 的優勢愈發凸顯。它憑借強大的搜索與迭代優化能力,始終能在復雜的約束條件下,生成合理、高效的旅行計劃。例如,在一個 7 天跨國旅行規劃案例中,Mind Evolution 生成的計劃精準銜接了多個城市的交通,合理分配了每天的游覽時間,既保證了用戶有充足時間參觀心儀景點,又巧妙避免了時間沖突和預算超支問題。而基線方法生成的計劃要么因頻繁調整航班導致預算嚴重超支,要么因不合理安排行程使部分景點游覽時間過短,用戶體驗大打折扣。在效率指標方面,Mind Evolution 在保證高質量解決方案的同時,展現出較高的生成效率。其平均耗時和資源消耗(LLM 調用次數、生成的 Token 數量等)均優于 Sequential Revision + 方法,且與 Best-of-N 方法相當,綜合性能優勢十分明顯。
詳細的實驗結果可以參考下表
在基準自然語言規劃任務上的實驗結果?!埃?pro)”表示兩階段的結果,在這一階段,使用Gemini 1.5 Pro來解決在使用Gemini 1.5 Flash進行實驗時未能解決的問題。大語言模型(LLM)調用次數、Tokens數量和API成本是基于驗證集或測試問題集的平均值,并且在“(+pro)”實驗中,它們僅針對剩余問題進行計算。此外,實驗還展示了OpenAI o1-preview的結果以供參考。
上表中展示了不同方法在 TravelPlanner 基準上的表現,包括成功率、LLM 調用次數、Token 數量以及 API 成本等指標。
Natural Plan 基準
在 Natural Plan 基準的 Trip Planning 任務中,Mind Evolution 在驗證集上達到了 96.2% 的成功率,遠超 Best-of-N 方法的 77.2% 和 Sequential Revision + 方法的 74.4%。隨著旅行計劃中城市數量的增加,從 3 個城市到 10 個城市,Mind Evolution 與基線方法的差距逐漸拉大。在 10 城市旅行規劃案例中,Mind Evolution 生成的行程路線完美實現了城市間的航班直飛銜接,根據用戶對各城市的游覽重點需求,合理分配了停留天數。比如,用戶對城市 A 的歷史文化景點興趣濃厚,希望多花時間探索,而對城市 B 的現代商業景觀只是匆匆一瞥,Mind Evolution 生成的計劃精準反映了這一需求,安排了 3 天游覽城市 A,僅 1 天打卡城市 B,整體旅行節奏把握得恰到好處。而基線方法生成的路線要么出現無法直飛的城市銜接錯誤,要么對各城市的停留天數分配不合理,導致用戶重點游覽需求無法滿足。在 Meeting Planning 任務中,Mind Evolution 同樣表現出色,驗證集成功率達到 85.0%,隨著參與會議人數從 2 人增加至 10 人,其優勢依然穩固。在 10 人會議安排案例中,Mind Evolution 生成的計劃巧妙避免了所有會議時間沖突,確保每位參會人員都有充足時間參與自己負責的會議,且會議時長安排合理,符合實際溝通需求。相比之下,基線方法生成的安排要么出現會議時間重疊,要么遺漏了部分重要參會人員,無法達到高效的會議組織效果。詳細的實驗結果可以參考下圖
按訪問城市數量劃分的旅行規劃基準測試在驗證集上的成功率上圖展示了不同方法在 Trip Planning 基準上的成功率隨城市數量的變化趨勢。
按會面人數劃分的會議規劃基準測試在驗證集上的成功率
上圖展示了不同方法在 Meeting Planning 基準上的成功率隨參與人數的變化趨勢。
StegPoet 基準
StegPoet 基準作為創意寫作領域的全新挑戰,考驗著 LLM 在隱寫任務中的規劃與生成能力。在這個任務中,Mind Evolution 展現出了卓越的性能。例如,在一個要求將數字序列 [10,20,30,40,50,60,70,80,90,100,10,20] 隱寫為詩歌的任務中,Mind Evolution 生成了一首以兒童詩歌為主題的創意作品。詩歌中巧妙地將數字對應的單詞(如 “rooster” 對應 10,“flowers” 對應 20 等)嵌入到詩句中,如 “I like to walk, I like to stride, With ROOSTER crows and FLOWERS by my side.”,不僅完整、準確地隱寫了所有數字,而且詩歌整體連貫、富有童趣,完美契合兒童詩歌的風格要求。反觀基線方法,1-Pass 方法生成的詩歌要么遺漏了部分數字隱寫,要么詩句生硬拼湊,毫無藝術性可言;Best-of-N 方法雖生成了大量候選詩歌,但也僅有個別詩歌勉強完成數字隱寫,大部分存在語義不通順、風格不符等問題;Sequential Revision + 方法在多輪修訂后,雖在一定程度上改善了詩歌質量,但依舊無法像 Mind Evolution 那樣,在保證隱寫準確性的基礎上,呈現出高質量的文學創作。Mind Evolution 在該任務上的出色表現,再次印證了其在復雜創意寫作任務中的強大實力。詳細的實驗結果可以參考下表
StegPoet的實驗結果。價格和token數量是按問題計算的平均值。所有結果均使用Gemini 1.5 Flash,除非標注為(+pro),該部分使用Gemini 1.5 Pro解決在Flash運行中未解決的問題上表展示了不同方法在 StegPoet 基準上的成功率、Token 數量以及 API 成本等指標,見下表
StegPoet示例。展示了StegPoet問題實例的編碼示例(左側)和正確的解決方案(右側),其中包含數字到單詞的密碼以及一首兒童詩歌風格的詩。請注意,在這個實例中,|??| = 12。例子對代碼詞進行了大寫處理,以便突出顯示它們
上表展示了 StegPoet 任務的一個示例,包括問題描述和正確的解決方案。
性能深度剖析
綜合來看,Mind Evolution 能夠在多個基準測試中大幅優于基線方法,關鍵在于它巧妙結合了廣泛搜索與深度搜索的優勢。在廣泛搜索階段,通過隨機探索生成大量多樣化候選解,就像在黑暗中多方向散發光束,盡可能照亮更多潛在解區域;在深度搜索階段,利用 LLM 對候選解進行精細迭代優化,如同聚焦光束,在已發現的優質解區域深耕細作,逐步雕琢出最優解。這種發散與聚合思維模式的完美契合,讓 Mind Evolution 在面對不同類型的規劃任務、不同難度級別挑戰時,都能游刃有余地發揮出色性能。無論是旅行規劃中的多約束條件平衡,還是會議安排中的復雜時間表協調,亦或是創意寫作中的隱寫信息與藝術性兼顧,Mind Evolution 均展現出強大的泛化能力,為實際應用提供了高度可靠、廣泛適用的解決方案。
詳細的性能對比可以參考下圖
隨著候選解數量的增加,TravelPlanner的成功率和評估分數
隨著候選方案數量的增加,行程規劃的成功率和評分情況
隨著候選方案數量的增加,會議計劃的成功率和評分
其中展示了不同方法在 TravelPlanner、Trip Planning 和 Meeting Planning 基準上的成功率和評估分數隨候選解數量的變化趨勢。
探討與啟示
與相關工作的對比
相比以往將進化搜索與 LLM 結合但多聚焦于形式程序空間搜索的研究,Mind Evolution 在自然語言規劃等非形式化任務上的獨特優勢尤為顯著。以往研究在形式程序空間中搜索,雖然在代碼生成等任務中取得了一定成果,但對于自然語言規劃這類任務,往往因形式化過程(formalization process)的復雜性而難以施展拳腳。
例如,在旅行規劃任務中,傳統的形式化方法需要精確定義每個約束條件的數學表達式,如預算約束表示為 “總花費 ≤ 預算金額”,時間安排合理性表示為一系列時間區間不重疊的邏輯表達式等。然而,自然語言中豐富的語義信息和靈活的表達方式使得這種形式化過程難以自動完成,且一旦用戶需求發生微小變化(如增加一個特殊景點參觀要求),形式化表達又需重新調整。而 Mind Evolution 技術則跳過了這一障礙,直接在自然語言空間中利用進化搜索探索解決方案,就像在寬廣的海洋中自由航行,無需拘泥于固定的航道(形式化框架),為 LLM 在復雜任務中的應用開辟了全新的廣闊天地。這種技術思路的轉變,不僅為 LLM 在自然語言規劃領域的發展提供了新方向,也促使整個 AI 研究領域重新思考如何突破傳統方法局限,以更靈活、高效的方式解決實際問題。
對 LLM 評估器依賴的思考
盡管 Mind Evolution 技術表現出色,但其對可編程評估器的依賴也不容忽視。目前,該技術依賴于人為設計的評估器來判斷候選解的質量并提供反饋。這種評估器如同 LLM 的 “導師”,指引著進化搜索的方向。然而,這種依賴也帶來了一定的局限性。一方面,設計高質量的評估器需要深入理解具體任務的業務邏輯和目標,對于一些新興的、復雜的任務類型(如基于虛擬現實的沉浸式旅行規劃),開發精準評估器存在較大難度;另一方面,評估器的主觀性可能會影響進化結果。例如,在創意寫作任務中,不同評估器對 “文學藝術性” 的定義可能存在差異,從而導致進化出的文本風格與用戶實際期望有所偏差。未來,降低對這種評估器的依賴程度,開發更具自適應性、通用性的評估機制,成為 Mind Evolution 技術發展的重要方向。研究人員可探索利用強化學習技術,讓 LLM 通過與環境的交互自主學習評估標準;或者借助元學習方法,使 LLM 能夠快速適應不同類型任務的評估需求,實現從 “他評” 到 “自評” 的跨越,為技術的廣泛應用和持續發展提供更堅實的支撐。
總結:局限性與未來展望
局限性剖析
Mind Evolution 技術當前的應用范圍主要局限于可被程序評估且能提供有效反饋的自然語言規劃問題。這意味著,對于一些高度復雜、評估標準難以明確量化或程序化的任務,如開放式創新寫作(無明確主題和風格要求)、戰略決策規劃(涉及多維度抽象因素考量)等,該技術可能難以充分發揮優勢。
以一部科幻小說的創意構思為例,其評估標準可能涉及創意的獨特性、世界觀的合理性、情節的吸引力等眾多抽象維度,且這些維度之間的權重難以確定,現有的程序評估器難以對這類任務進行精準評估和反饋,從而限制了 Mind Evolution 在該領域的應用效果(如果是生態平臺呢?)。此外,這個技術在處理大規模、實時性要求極高的任務時,也可能面臨計算資源瓶頸。例如,在全球性實時物流規劃任務中,需要在短時間內處理海量訂單數據、交通路況信息等,生成最優物流配送方案,Mind Evolution 可能在計算效率上無法完全滿足實時性要求。
未來研究方向細化
針對通用 LLM 基評估器開發這一未來研究方向,研究人員可開展多維度的深入探索。首先,在自動化理解任務需求方面,評估器需具備強大的自然語言處理能力,能夠自動解析任務描述中的關鍵約束條件和目標函數。例如,對于旅行規劃任務,評估器應能精準識別用戶提及的預算范圍、偏好景點類型、旅行時長等約束信息,并將其轉化為內部可處理的評估指標。同時,評估器要能夠根據不同領域任務特點進行靈活調整和優化。在旅行規劃領域,針對不同目的地特色(如海島度假、歷史古跡探索等)和用戶個性化偏好(如豪華享受型、經濟實惠型),評估器應動態調整評估標準權重,如對于海島度假旅行,加大對海灘活動安排合理性、海邊餐廳推薦精準性的評估權重;在創意寫作領域,針對不同文體風格(詩歌、散文、小說等)和主題要求(愛情、科幻、懸疑等),優化隱寫信息嵌入方式和文本藝術性評估維度。在開發過程中,研究人員將面臨諸多挑戰,比如,如何確保評估器在跨領域任務中的適應性,避免因領域差異導致評估偏差;如何平衡評估精度與效率,通過優化算法結構和利用硬件加速技術,在保證評估準確性的同時,減少計算資源消耗;以及如何實現評估器與現有 LLM 架構的無縫集成,使兩者在訓練和推理過程中協同工作,共同提升任務性能。
總之只,Mind Evolution 技術憑借其無需形式化解算器輔助、直接在自然語言空間中優化候選解的創新優勢,在多個規劃任務基準測試中展現出卓越性能,為 LLM 的推理能力提升帶來了突破。從旅行規劃到會議安排,從創意寫作出品,它所展現出的強大泛化能力和高效優化性能,讓我們看到了 LLM 在實際應用中的巨大潛力。