從openAI最新模型GPT-o1再談思維鏈(Cot)技術,大模型該怎么提升其邏輯推理能力? 原創
“ 推理能力是大模型邁向AGI的必經之路 ”
最近openAI發布了號稱史上最強模型——o1,其具有強大的邏輯推理能力,號稱能達到人類的博士生水平。
而從o1模型的評測來看,o1模型在數學競賽,編碼,科學問答等方面表現良好,甚至高出了GPT4o一大截。
而且,o1在物理,化學,生物,邏輯學等其它領域,相比GPT4o都得到了巨大的提升。
而據介紹o1模型之所以具有如此強大的邏輯推理能力,就是因為使用了思維鏈技術;當然,目前官方并沒有公布o1的核心技術理論,因此也不排除o1模型使用了其它更加強大的邏輯推理技術。
大模型之思維鏈技術
在前面的文章中也簡單介紹過大模型的思維鏈技術——大模型推理引擎之思維鏈技術,里面介紹了思維鏈的基本邏輯以及其實現原理。
簡單來說,思維鏈技術就是模擬人類的思維方式,在面對復雜問題時,讓大模型像人類一樣思考,把復雜問題拆分成簡單的步驟,然后通過調用工具一步一步地去完成。
而大模型還有哪些能夠提升其邏輯推理能力的技術或方法?今天就來盤點一下提升大模型邏輯推理的黑科技。
初級推理技術
大模型初級推理技術的核心是,把大型復雜的任務,分解成一個一個的簡單的小任務。
主要包括,思維鏈(CoT),自洽性思維鏈(CoT-SC),思維樹(TOT-tree of thought)等技術。
思維鏈
思維鏈全稱Chain of Thought,就是把任務進行拆解,適用于各種推理任務,比如數學,邏輯判斷等,思維鏈的優點就是不用對模型進行訓練和微調。
在思維鏈技術中,可能還會使用到零樣本(zero-shot prompt)提示和少樣本提示(few-shot prompt)等技術。
自洽性思維鏈
所謂的自洽性思維鏈,是指對同一個問題,生成多個不同的思維鏈技術,并讓模型從中挑出最合適的方案。
思維鏈技術并不穩定,其效果取決于大模型的能力,而如果讓大模型進行發散性思維,通過多種不同的方式解決問題,然后從中找到最優解,這就是自洽性思維鏈。
思維樹
思維樹(TOT)是對思維鏈(CoT)的進一步擴展,在思維鏈的每一步,推理出多個分支,拓撲展開成一棵思維樹。使用啟發式的方法評估每個推理分支對問題解決的貢獻。
使用搜索算法,如廣度搜索或深度搜索算法等來探索思維樹,并進行前瞻和回溯。
中級推理技術
初級推理技術的優點是簡單,缺點是結果不可控,推理過程與結果完全由大模型本身自由發揮,即使出錯也沒有糾錯機制。
因此,以ReAct,Plan & Execute和Self Discover為代表的中級推理技術就出現了。
其會約束大模型的推理方向,并根據環境反饋進行糾錯。
ReAct
ReAct全稱Reasoning and Acting,意思就是推理與行動,來解決多樣化的語言推理與決策任務。
其典型的流程是Thought-思考——Action-行動和Observation-觀察;思考與行動都比較容易理解,觀察其實就是一個反饋的過程,把任務執行的步驟記錄下來進行觀察,根據觀察結果進行調整。
這樣經過思考——行動——觀察——再思考——再行動——再觀察的過程,經過多次循環,最終達到目的。
Plan & Execute
Plan & Execute 方法的本質是先計劃再執行,從名稱就可以看出,計劃 & 執行,通過把問題拆分成一個一個的子任務,根據情況調整執行計劃。
Self-Discover
Self-Discover主要包含兩個階段:
階段一:自發現特定任務的推理結構
階段二:應用推理結構
高級推理技術——Reflexion 和 LATS
初級推理和高級推理雖然能解決一些簡單的任務,但對一些更復雜,思維鏈路更長的任務就束手無策了。
因此,高級推理技術就出現了,Reflexion和LATS的核心思想就是通過強化學習的方式來解決更復雜的任務場景。
Reflexion
Reflexion 的本質是強化學習,它主要由三部分組成,參與者——Actor,評估者——Evaluator和自我反思——Self-Reflection。
Reflexion 旨在通過反思過去的錯誤,并把這些知識納入未來的決策,用以幫助Agent提升表現能力。因此,Reflexion非常適合那種通過反復實驗得到結果的任務,比如決策,推理,編程等。
LATS——Language Agent Tree Search
LATS技術全稱是——Language Agent Tree Search,簡單來說就是Tree search + ReAct + Plan&Execute+ Reflexion,因此可以說LATS技術是目前最強的推理技術,集百家之長。
這里的ReAct,Plan & Execute 和Reflexion在前面的內容中都簡單介紹過,這里要再介紹一下Tree Search。
Tree Search是一種樹搜索算法,LATS使用蒙特卡羅算法(MCTS),通過平衡搜索找到最優決策路徑。
總之,大模型的推理能力是邁向AGI的基礎,也是Agent未來應用的基石。
本文轉載自公眾號AI探索時代 作者:DFires
