田淵棟：連續(xù)思維鏈效率更高，可同時編碼多個路徑，“疊加態(tài)”式并行搜索

2025-06-20 08:47:00

連續(xù)思維鏈的并行搜索類似于量子疊加，比離散型思維鏈更具優(yōu)勢。

AI也有量子疊加態(tài)了？

連續(xù)思維鏈的并行搜索類似于量子疊加，比離散型思維鏈更具優(yōu)勢。

這是AI大牛田淵棟團隊的最新研究成果。

傳統(tǒng)LLM通過生成 “思維token”（如文本形式的中間步驟）進行推理（即離散思維鏈），但在處理復(fù)雜任務(wù)（如判斷有向圖中節(jié)點是否可達）時效率低下，需要O(n^2)步解碼（n為節(jié)點數(shù)），且容易陷入局部解。

近期研究發(fā)現(xiàn)，用連續(xù)隱向量（非離散token）進行推理能顯著提升性能，但缺乏理論解釋。

田淵棟領(lǐng)銜來自UC伯克利、UCSD的科學家們利用連續(xù)空間中的 “疊加態(tài)”，讓大模型進行并行推理，大幅提升了模型在圖可達性等任務(wù)中的表現(xiàn)，給上述連續(xù)思維鏈提供了理論支持。

團隊證明了：

對于具有n個頂點且直徑為D的圖，一個包含D步連續(xù)CoTs的兩層Transformer可以解決有向圖可達性問題，而具有離散CoTs的恒定深度Transformer的最佳已知結(jié)果需要O(n^2)個解碼步驟。

簡單來說，對于有向圖可達性問題，離散思維鏈類似于深度優(yōu)先搜索（DFS），每次只能選擇單一路徑，導(dǎo)致步驟多且容易受限。

而連續(xù)思維鏈可以同時編碼多個候選圖路徑，類似于廣度優(yōu)先搜索（BFS），并且可以利用這種“疊加”進行隱式的「并行搜索」，比離散思維鏈更具優(yōu)勢。

讓我們來看看實驗細節(jié)。

跟著“導(dǎo)航”找思維路徑

團隊設(shè)計了一種注意力選擇器機制，使模型能根據(jù)當前token選擇性地關(guān)注特定位置（如邊的源節(jié)點和目標節(jié)點），確保信息的有效提取。

這個注意力選擇器就好比我們開車時用的導(dǎo)航儀，能幫模型在一堆信息里精準找到該關(guān)注的地方。

具體來說，當模型在處理信息時，遇到特定的 “標記”，比如表示一條邊結(jié)束的token，就像導(dǎo)航儀識別出一個路口標識，這時候它就會自動把注意力集中到這條邊的起點和終點節(jié)點上。

就像你看到 “前方路口右轉(zhuǎn)” 的提示后，會重點關(guān)注那個路口的位置。

如果沒遇到這種明確的標記，注意力選擇器就會模型去關(guān)注開頭的信息，比如問題最開始給出的條件，這樣就能確保模型不會在信息堆里迷路，始終能從正確的起點開始思考。

什么是連續(xù)思維的“疊加態(tài)”？

我們這里所說的“疊加態(tài)” 就像一個裝著所有可能答案的“盒子”。

比如，從根節(jié)點出發(fā)走c步后，這個盒子里不會只裝著一條路徑，而是同時裝著所有c步內(nèi)可達的節(jié)點，這些節(jié)點的信息被 “揉” 成一個向量（即思維向量），讓模型能一次性處理所有可能性，而不是一次只考慮一條路徑。

第一層Transformer：“整理” 邊的信息

假設(shè)我們有一個有向圖，邊用token表示，每個邊token旁邊還帶著它的源節(jié)點（起點）和目標節(jié)點（終點）。

此外，根節(jié)點r是探索的起點，初始思維向量就是r的嵌入向量。

第一層Transformer 有5個注意力頭，每個頭就像一個 “信息收集小助手”，它們的任務(wù)是：

當遇到一個邊token時，小助手會 “主動” 關(guān)注這個邊的源節(jié)點和目標節(jié)點，并把這兩個節(jié)點的信息 “復(fù)制” 到邊token的位置上，就像在邊token旁邊貼兩張標簽，分別寫著 “起點是XXX” 和 “終點是XXX”。
舉個例子：如果有一條邊是從節(jié)點A到節(jié)點B，邊token會被處理成包含A和B的信息，方便后續(xù)使用。

經(jīng)過第一層處理后，每條邊的信息都被明確標注了起點和終點，初始思維向量也被保留下來，作為下一步探索的基礎(chǔ)。

第二層Transformer：“并行探索” 所有可能路徑

這一層就像 “探索指揮官”，它會根據(jù)當前的疊加態(tài)（即當前能到達的所有節(jié)點），去尋找下一步能到達的新節(jié)點：

假設(shè)當前疊加態(tài)里有節(jié)點集合Vc（c步內(nèi)可達的節(jié)點），模型會 “掃描” 所有邊，看看哪些邊的源節(jié)點在Vc里。比如，若Vc里有節(jié)點A和B，就查看從A和B出發(fā)的所有邊。
對于符合條件的邊，其目標節(jié)點會被 “添加” 到疊加態(tài)中，形成新的節(jié)點集合Vc+1（c+1步內(nèi)可達的節(jié)點）。這就好比從A和B出發(fā)，發(fā)現(xiàn)能到達C和D，于是把C和D也放進 “盒子”，讓下一輪探索能考慮這些新節(jié)點。

MLP層：“過濾” 和 “平衡”

過濾噪聲：疊加態(tài)在擴展過程中可能會混入一些 “不重要的節(jié)點”（類似盒子里進了雜物），MLP層會像 “篩子” 一樣，把那些權(quán)重很小的節(jié)點（即幾乎不可能到達的節(jié)點）過濾掉，只保留有價值的節(jié)點。
平衡權(quán)重：過濾后，MLP層會讓剩下的節(jié)點在疊加態(tài)中的 “權(quán)重” 變得均勻，就像把盒子里的節(jié)點信息整理得整整齊齊，不讓某個節(jié)點的信息 “壓倒” 其他節(jié)點，確保模型能公平地考慮每一個可能的路徑。