CREATOR制造、使用工具,實現LLM「自我進化」
自古以來,工具的使用被視為區分人與其他物種的一大區別,也被視為是智能的一種根本體現。而當下,人工智能已不再局限于對工具的簡單使用,它們已然能夠根據問題創造性地建立自己的工具來尋求解決方案。在思維上,這代表著當下大模型已經能夠掌握更高層次的抽象思維認知,并將其與具象思維劃分,共同解決問題;而在能力上,工具創造的出現也意味著模型已經能夠從 “學習” 中蛻變,去運用已知 “創造” 未來的無限可能。
- 論文鏈接:https://arxiv.org/pdf/2305.14318.pdf
研究背景
近年來,大規模語言模型(Large Language Models)取得了顯著的研究進展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近發布的 GPT-4 等。這些模型在上下文學習(In-Context Learning)、代碼生成(Code Generation)和各種其他自然語言處理任務方面表現出色,將模型的潛力進一步推向了通用人工智能。
盡管大模型在這些取得了巨大的成功,其當下仍然存在很多短板,包括無法識別或回答最新的實時信息、很難在大規模的數據計算上達到高準確性,在題干邏輯復雜時推理能力不穩定等等。針對這些短板,研究者開始致力于向當前模型架構中引入對外部資源的利用能力,例如引入計算器,問答系統,維基百科等等外部知識源,來增強模型能力。這一系列研究奠定了模型工具學習(Tool Learning)能力的基礎。
然而,當下研究中利用的外部工具數量仍然有限,而在潛在的新任務類型幾乎是無盡的。因此,在面對新的問題類型時,很難找到現有的適合解決問題的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文檔中進行海量搜索、匹配并針對問題進行針對性地規劃。這將給模型帶來很大的認知負擔,并需要較高的學習成本。
因此,研究團隊提出了全新的一種研究范式:工具創造(Tool Creation)。其不再是簡單利用大模型使用工具的能力,而是加入了全新的工具創造模塊,讓模型針對所面對的問題進行工具創造并尋求解決方案。
利用大模型創造工具能夠提高工具的普適性、可復用性和多樣性,超越給定 API 的限制。工具創造模塊的設計還可以減輕大模型的認知負擔,并解耦其進行抽象推理(創建可推廣的具有普適性的工具)和具象推理(根據工具實現細節和工具使用文檔進行決策)的能力。同時,該框架下模型以代碼作為工具創造的媒介,這使得模型對于錯誤更加敏感,并能根據工具創造與使用中的問題進行回溯與修正。
工具創造范式相比工具使用更加靈活并對不同場景有更強的適應能力
CREATOR 研究框架
大模型進行工具創造來解決問題的框架 CREATOR 主要分為了以下四個階段:
- 創造(Creation):運用大模型對于問題的抽象推理能力,通過代碼有針對性性地創造所需工具以及其使用說明。
- 決策(Decision):運用大模型對于問題的具象推理能力,決策如何調用工具來解決當前問題。
- 執行(Execution):根據創造的工具以及決策內容,進行決策的執行,并捕獲執行過程中的輸出信息。
- 修正(Rectification):運用大模型對于錯因推理以及自我修復的能力,對執行階段捕捉到的問題進行修復。
大模型進行工具創造與決策的流程框架
大模型首先將根據問題創造所需要的工具以及其相關使用說明;此后,問題內容以及工具信息將同時再次返回給大模型,用以決策針對本問題的解決方案,以及如何使用這些工具。此后,模型將根據執行情況對工具及決策做出調整,以更好地適應問題并尋求解答。
整個工具創造框架靈活運用了大模型的不同思維能力:提取問題關鍵信息的抽象思維推理,根據任務實施方案決策的具象思維推理,以及根據問題尋求解決方案的自我修復推理。這些能力的解耦幫助大模型避免了在普通推理鏈(Chain-of-Thought, CoT)中的思維混亂而導致的失敗現象,有效提升了大模型對于任務的適應能力及表現。
CREATOR 實驗評測
作者將 CREATOR 框架與當前的普通推理鏈方法(CoT),程序推理鏈方法(Program-of-Thought, PoT)以及沒有創造的簡單工具使用(Tool Use)進行了比對。同時,為了驗證框架中剝離抽象推理與具象推理的有效性,作者還額外引入了整體工具創造(Tool Create - whole)作為基線,該方法將 CREATOR 框架中的創造階段與決策階段合二為一,不再進行推理能力上的解耦。
Creation Challenge 數據集問題,標準工具及決策示例
在 MATH 數據集上 CREATOR 框架的表現高于其他推理方法以及簡單的工具運用
在數據集的選取上,作者選擇了 MATH 以及 TabMWP 數據集作為主要驗證。其中前者包含了美國數學競賽當中的高難度數學問題,而后者將問題與豐富的數據表結合,二者都考驗了模型對于多樣化場景的問題推理與解決能力。除此之外,作者還額外引入了全新構建的 Creation Challenge 數據集,其中的問題都無法直接套用現有工具或者代碼包解決,從而考驗了模型進行工具創造的能力。
在 TabMWP 數據集以及 Creation Challenge 上 CREATOR 框架效果也顯著更強
從實驗結果看來,CREATOR 框架的推理結果要明顯好于所有基線,尤其相對于標準的推理方法以及程序推理方法,均達到了更好的效果。同時實驗也證明了對抽象與具象推理能力進行解耦也可以有效幫助模型提高準確率。在 Creation Challenge 測試集上,作者還額外驗證了在有創造什么樣的工具的提示(hint)的情況下,模型將會對問題有著更強的解決能力。因此,提示與思維解耦這兩點也成為了工具創造中的重要影響因素。
不同方法針對任務難度的準確率統計
在修正階段的參與下效果的提升
除此之外,作者還驗證了不同方法對于任務難度的變化曲線,以及修正階段參與輪次與大模型效果提升之間的聯系。結果表明,CREATOR 框架面對有難度的問題能夠保持更好的魯棒性,以及修正階段的參與能夠讓不僅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,證實了在實驗中引入修正階段的合理性與有效性。
工具創造的其他優勢
在主實驗之外,文章作者也著重探討了工具創造的其他優勢以及當下大模型工具創造能力的不同展現形式。既然是創造工具,那么作為工具的一大優勢必定是其可復用性。作者也順此思路進一步展示了工具的復用對于任務效果的提升。
作者設計了 300 條問題并三個一組分為了 100 組。其中每一組的三個問題雖然場景不同,但都涉及相同的核心知識(Core Knowledge),即同類問題。作者驗證了將對于一個問題創造的工具用于一組問題中的所有場景,是否都能夠有效解決并提升準確率。
對于大模型創造的工具在其他問題上遷移,能夠有效提高準確率
實驗統計表明將模型創造的正確可用的工具遷移到其他同類問題場景,能夠有效提升問題解決的正確率。這即表明大模型創造的工具具有良好的可復用性,對于同類問題也有著良好的普適性。
除此之外,作者還展示了大模型進行工具創造的三個維度:對已有工具進行封裝以實現不同目的,將不同工具進行組合實現目標功能,以及進行層次化的工具創建。這三個維度由低到高展示了當下大模型工具創造的能力,而這些能力也幫助大模型能夠更高效地適應不同場景。
大模型進行工具創造的三個維度
總結
CREATOR 框架通過工具創造實現了大模型抽象與具象思維能力的解耦,是繼工具學習之后,對模型能力邊際探索的又一大突破。相信未來的更多研究將會以此為基礎,繼續在工具的使用與創造上不斷證明與增強模型潛力,為我們帶來更多驚喜。
文章主要作者
錢成,清華大學大三年級本科生,THUNLP 實驗室成員,導師劉知遠。目前研究方向包括大模型預訓練,大模型高效微調,以及工具學習等領域。曾獲清華大學計算機綜合優秀獎學金,并以共同一作身份在 EMNLP,ACL 等國際會議中發表論文。
個人主頁:https://qiancheng0.github.io/