推理模型規劃任務成功率從5%到95%，DeepMind遺傳算法新研究火了

作者：量子位 2025-01-23 16:25:23

人工智能新聞

所提出的“Mind Evolution”（思維進化），能夠優化大語言模型（LLMs）在規劃和推理中的響應。

瞄準推理時擴展（Inference-time scaling），DeepMind新的進化搜索策略火了！

所提出的“Mind Evolution”（思維進化），能夠優化大語言模型（LLMs）在規劃和推理中的響應。

由于提升顯著，Reddit/??一時間出現了大量討論：

由于結合了遺傳算法，使用Mind Evolution能讓Gemini 1.5 Flash任務成功率從原本的5%左右，一下提升90個百分點。

而且成本方面，和最接近這一性能的傳統方法Sequential-Revision+相比，所使用的tokens數量僅為后者的幾分之一。

響應更好，成本還降低了，還是無需微調的結果。

這令人熟悉的配方又直接“迷倒”了一大片網友：

與此同時，Mind Evolution還有一大優勢也令人津津樂道：

它可以直接處理自然語言問題，而無需像傳統一樣需要將任務問題進一步形式化（即將實際問題轉化為精確的、可被算法處理的數學或邏輯形式）。

也就是說，僅需一個最終檢查解決方案是否正確的評估器，任務形式化也不需要了。

將問題形式化，需要大量領域專業知識和對問題的透徹理解，才能找出所有需用符號表示的關鍵元素及其關系，這大大限制了Inference-time scaling的適用范圍。

總之按網友形容，這項研究就像給大語言模型升級大腦而不刷爆信用卡，酷酷酷！！

下面來看具體是如何做到的。

結合了進化搜索原理和LLMs的自然語言能力

首先，OpenAI的o1系列模型率先引入了推理時擴展（inference-time scaling）的概念，通過增加思維鏈（Chain-of-Thought）推理過程的長度，在數學、編程、科學推理等任務上取得了顯著的性能提升。

換句話說，通過讓模型思考更多、更深，其響應也會越來越好。

而為了更多利用推理時擴展，先前研究還提出了自一致性（self-consistency）、基于反饋的順序修正（如Sequential-Revision +），以及由輔助驗證器或評估器引導的搜索（如Best-of-N）。

基于同樣目的，DeepMind提出了Mind Evolution這一針對LLMs的新進化搜索策略。

結合了進化搜索原理與LLMs的自然語言能力，既允許對可能的解決方案進行廣泛探索，也允許對有希望的候選方案進行深入細化。

具體而言，Mind Evolution依賴于兩個關鍵組件：搜索算法和遺傳算法。

搜索算法比較常見，一般用來讓LLMs找到最佳推理路徑以獲得最優解；而遺傳算法結合大語言模型，在自然語言處理任務中，通過迭代優化候選解決方案，以更好地滿足任務目標。

舉個例子，假如面臨上圖中的任務：

請計劃從西雅圖到洛杉磯和南達科他州的5天旅行，預算為800美元。我們希望至少有一頓晚餐吃日本料理，并且偏好入住私人酒店客房。

Mind Evolution整體處理流程如下（類似遺傳算法）：

樣本解決方案生成（Sample solutions）：使用LLMs生成多個初始旅行計劃；
評估（Evaluate）：對生成的解決方案給出反饋，指出問題，如成本超出預算限制、用餐偏好未滿足等；
改進（Refine，包括選擇、交叉、變異）：根據評估反饋，對解決方案進行改進；
終止條件（Terminate）：當滿足以下條件之一時終止，如找到有效或最佳解決方案，或達到最大計算預算（Gen N）。

這里尤其需要提到改進過程，其中選擇是指依據評估反饋，選擇更有可能改進的解決方案；交叉指將不同解決方案的部分內容進行組合，實現類似生物基因重組的效果，生成新的候選解決方案；變異是指對解決方案進行隨機調整，增加種群多樣性，以探索更多可能的解決方案。

最終，評估、選擇和重組的循環將持續進行，直到算法達到最優解或耗盡預設的迭代次數。

另外值得一提的是，Mind Evolution具體是通過“The fitness function”（適應度函數）來消除任務形式化問題。

簡單說，適應度函數適配自然語言規劃任務，解決方案以自然語言呈現。

如此一來，在有程序性解決方案評估器時，系統可規避問題形式化，并且除給出數值評分外，還能提供文本反饋，幫助LLMs理解具體問題并開展針對性優化。

此外，Mind Evolution還采用“island”（島嶼）方法來確保多樣化探索。

在每一個階段，算法都會創建各自獨立進化的解決方案組。然后，它將最優解從一組“遷移”到另一組，以結合并創造新的解決方案。

那么，Mind Evolution實際表現如何呢？

規劃表現均優于其他基線方法

實驗階段，研究人員將它和其他基線進行了對比。

1-pass：使用o1-preview，模型只生成一個答案；
Best-of-N，模型生成多個答案并選擇最佳答案；
Sequential Revisions+：模型獨立提出10個候選解決方案，然后分別對80次迭代進行修訂。

可以看出，盡管缺少遺傳算法組件，Sequential Revisions+在旅行規劃上的成功率最為接近Mind Evolution。

不過隨著從左至右任務復雜性的增加，Mind Evolution與其他方法之間的差距越來越大，優勢愈發凸顯。

整體來看，在所有測試中，Mind Evolution的表現都遠遠超過了基線，尤其是在任務變得更加困難時。

在TravelPlanner（評估旅行規劃）和Natural Plan（評估會議規劃）這兩項基準測試中，未采用Mind Evolution的Gemini 1.5 Flash任務成功率分別為5.6%和20.8%，而采用Mind Evolution之后，其任務成功率分別提升至95.6%和85.0%。

而且，如果繼續將Gemini 1.5 Flash未解決的問題丟給1.5Pro，其成功率更是上升至100%和98.4%。

另外成本方面，和最接近上述性能的傳統方法Sequential-Revision+相比，所使用的tokens數量僅為后者的幾分之一。