優雅談大模型:“System2”與“System 1”
System 1和System 2的思維來自丹尼爾·卡尼曼 (Daniel Kahneman)的《思考,快與慢》一書。里面介紹了兩種不同的認知處理模式。System 1快速、自動且直觀,幾乎無需費力即可操作。這種思維模式使人類能夠根據模式和經驗做出快速決策和判斷。相比之下,System 2是緩慢的、深思熟慮的和有意識的,需要有意識地努力。這種類型的思維用于復雜的問題解決和分析任務,在這些任務中需要更多的思考和考慮。
上下班途中,人總是知道該走哪條路線,而無需有意識地考慮。一般而言會自動走到地鐵站,習慣性地在同一個站點下車,然后在你的思緒徘徊時走到你的辦公室。假如某天地鐵停了,那么就需要花費時間分析其他上班路線,以便選擇最快的一條。公交車在運行嗎?外面溫度如何?走路可行?打車費用多少?兩種情況的思維模式直觀地體現了較慢的思維過程和瞬時思維過程之間的差異。
在這篇研究中,研究人員探索了三種System 2方法——RaR、S2A 和 BSM,這些方法已經成功提煉到新的LLM,這個新的模型與System 1相比,產生了更好的結果,而且成本低于System 2。然而這種方法是有局限性,只能適用于特定的任務或受限于模型訓練的數據集。
大模型的業界已經提出了一系列相關的System 2技術,包括思維鏈(COT)、思維樹、思維圖、分支解決合并(BSM)、System 2 Attention(S2A)、Rephrase and Respond (RaR)等。得益于這種明確的推理,許多方法都顯示出更準確的結果, 但這樣做通常會帶來更高的推理成本和響應延遲。因此此類方法未在生產系統中使用,而大多使用了System 1。
上圖為BSM的架構,先是分支,然后獨立解讀,最后合并
對于人類來說, 學習將技能從深思熟慮(System 2)轉移到自動(System 1)的過程在心理學中被稱為自動性,以及程序記憶的使用。例如,第一次開車上班時,人們通常會花費有意識的努力來計劃和做出到達目的地的決定。而在駕駛員重復這條路線后,駕駛過程就會「編譯」到潛意識中。
來自 Meta FAIR 的研究者探索一種將System 2蒸餾到System 1的方法。通過在未標記的數據上運行System 2方法來收集過濾的訓練樣本,然后使用額外的計算產生更高質量的輸出。最后將這些蒸餾出來的訓練數據用于訓練System 1的LLM。
在兩個流行的基準上評估這種方法提出的模型,即OASST2和MT-bench。OASST2 驗證集包含273個樣本。MT-bench則用于評估LLM在充當有用的AI助手對話時的反應,它由8個不同領域的指令組成,例如寫作、推理、數學、編碼等。這兩個指標的評估還是相當不錯。
而下表也揭示了研究存在缺項,System 2蒸餾方法在各種解碼超參數上的性能都很差。GSM8k任務(數學問題)需要一種非常不同的推理。這凸顯了System 2蒸餾的重要方面:所提出的蒸餾算法在許多情況下都有效,但并非總是有效。這為未來的研究留下了空間,以闡明在哪些情況下應該應用蒸餾,以及何時不應用蒸餾。
