AAAI前主席Subbarao Kambhampati:LLM-Modulo框架助力大模型完成規(guī)劃任務(wù)! 原創(chuàng)
研究人員對(duì)大型語(yǔ)言模型(LLMs)在規(guī)劃和推理任務(wù)中的作用存在相當(dāng)大的困惑。一方面存在過(guò)于樂(lè)觀的說(shuō)法,即LLMs只需適當(dāng)?shù)奶崾净蜃晕因?yàn)證策略就能夠完成這些任務(wù)。另一方面,可能存在過(guò)于悲觀的說(shuō)法,即LLMs在規(guī)劃/推理任務(wù)中的唯一作用就是將問(wèn)題規(guī)范從一種語(yǔ)法格式轉(zhuǎn)換為另一種,并將問(wèn)題轉(zhuǎn)移到外部符號(hào)求解器。
Subbarao Kambhampati教授認(rèn)為這兩種極端觀點(diǎn)都是錯(cuò)誤的。自回歸LLMs本身不能完成規(guī)劃或自我驗(yàn)證(畢竟后者是一種推理形式),并對(duì)文獻(xiàn)中存在誤解的原因進(jìn)行了一些解釋。Subbarao Kambhampati教授還將主張將LLMs視為具有更有意義角色的通用近似知識(shí)源,超越簡(jiǎn)單的前端/后端格式轉(zhuǎn)換器,在規(guī)劃/推理任務(wù)中發(fā)揮更多作用。Subbarao Kambhampati教授提出了一個(gè)LLM-Modulo框架的愿景,將LLMs的優(yōu)勢(shì)與外部基于模型的驗(yàn)證器結(jié)合在一個(gè)更緊密的雙向交互體制中。Subbarao Kambhampati教授展示如何使用LLMs的幫助來(lái)獲取驅(qū)動(dòng)外部驗(yàn)證器的模型本身,與僅僅將LLMs和符號(hào)組件串聯(lián)起來(lái)不同,這種LLM-Modulo框架提供了更好的神經(jīng)符號(hào)方法,提供了LLMs和符號(hào)組件之間更緊密的集成,并允許將基于模型的規(guī)劃/推理體制擴(kuò)展到更靈活的知識(shí)、問(wèn)題和偏好規(guī)范。
簡(jiǎn)介
大型語(yǔ)言模型(LLMs)實(shí)質(zhì)上是在大規(guī)模語(yǔ)言語(yǔ)料庫(kù)上訓(xùn)練的N元模型,可以說(shuō)是被訓(xùn)練在網(wǎng)絡(luò)規(guī)模的語(yǔ)言語(yǔ)料庫(kù)上(或者說(shuō)是我們的集體意識(shí)),這些模型展現(xiàn)出了讓人意想不到的語(yǔ)言行為,超乎了人們對(duì)文本補(bǔ)全系統(tǒng)的預(yù)期。它們看似多才多藝的特性引起了許多研究人員的興趣,讓他們想知道這些模型是否也能在通常與第二系統(tǒng)能力相關(guān)的規(guī)劃和推理任務(wù)中表現(xiàn)出色。表面上看,這似乎不太可能,因?yàn)閺挠?xùn)練和操作來(lái)看,LLMs最好被視為一個(gè)巨大的偽第一系統(tǒng)。即使從純工程的角度來(lái)看,一個(gè)需要恒定時(shí)間產(chǎn)生下一個(gè)標(biāo)記的系統(tǒng)也不可能自行進(jìn)行有原則的推理。毫不奇怪,基于LLMs在推理任務(wù)上的軼事表現(xiàn)引起的最初的興奮情緒在最近一系列質(zhì)疑這種行為魯棒性的研究(如規(guī)劃)。盡管如此,文獻(xiàn)中仍然不斷有關(guān)于LLMs規(guī)劃和推理能力的聲稱(chēng)。與對(duì)LLMs規(guī)劃和推理能力的不合理樂(lè)觀態(tài)度形成鮮明對(duì)比的是,關(guān)于LLMs在規(guī)劃/推理任務(wù)中可以發(fā)揮的作用的不合理悲觀態(tài)度也在存在。一些努力主張僅將LLMs用作華麗的翻譯工具——將嵌入文本格式的推理問(wèn)題轉(zhuǎn)換為符號(hào)表示,然后將其交給外部經(jīng)典符號(hào)求解器(帶有所有相關(guān)的表達(dá)能力和搜索復(fù)雜性挑戰(zhàn)。
事實(shí)上,LLMs遠(yuǎn)不止是機(jī)器翻譯工具。它們是一種近似知識(shí)源,是在我們的集體意識(shí)上訓(xùn)練的。雖然它們不太可能擁有第二系統(tǒng)的能力,但它們?nèi)匀豢梢猿蔀榻鉀Q第二系統(tǒng)任務(wù)的寶貴資源。換句話(huà)說(shuō),往昔的煉金術(shù)問(wèn)題不在于化學(xué)是無(wú)用的,而是人們想要欺騙自己,認(rèn)為化學(xué)——本身就是一門(mén)相當(dāng)了不起的學(xué)科——只要適當(dāng)引導(dǎo)就可以成為核物理學(xué)。關(guān)于LLMs能力的困惑,或者說(shuō)LLMs煉金術(shù),似乎并沒(méi)有那么大的不同——在忽視它們擅長(zhǎng)的方面和賦予它們沒(méi)有的能力之間搖擺不定。
LLM-Modulo魯棒規(guī)劃框架
Subbarao Kambhampati教授提出了一個(gè)通用的“LLM-Modulo”框架。
上圖給出了設(shè)想的LLM-Modulo框架的示意圖。可以很容易地看出,底層架構(gòu)是一個(gè)生成-測(cè)試-評(píng)價(jià)循環(huán),LLM生成候選計(jì)劃,一組評(píng)論家對(duì)候選進(jìn)行評(píng)論。循環(huán)以L(fǎng)LM獲取問(wèn)題規(guī)范并生成其第一個(gè)計(jì)劃候選開(kāi)始。請(qǐng)注意,在這種架構(gòu)中,LLM幫助生成的計(jì)劃具有由外部可靠評(píng)論家提供的合理性保證。這意味著通過(guò)這種架構(gòu)產(chǎn)生的計(jì)劃將構(gòu)成更好的合成數(shù)據(jù)語(yǔ)料庫(kù),用于任何旨在改進(jìn)/定制LLM生成能力的微調(diào)階段。
首先,注意到LLM-Modulo架構(gòu)是一種涉及LLMs與外部評(píng)論家而不是求解器進(jìn)行交互的“生成-測(cè)試”架構(gòu)。這是一個(gè)有意識(shí)的決定——因?yàn)檫@樣可以讓LLM猜測(cè)/生成候選方案以滿(mǎn)足評(píng)論家,而不是處理求解器的表達(dá)能力和搜索復(fù)雜性問(wèn)題。其次,該框架明確承認(rèn)LLMs不僅可以生成關(guān)于計(jì)劃候選人的近似想法,還可以生成關(guān)于領(lǐng)域模型、問(wèn)題簡(jiǎn)化策略和問(wèn)題規(guī)范的修正。該框架還承認(rèn)LLMs擅長(zhǎng)格式/語(yǔ)法變化。因此,該框架利用了LLMs的所有這些能力,讓它們?cè)谝?guī)劃中扮演多種角色。最后,該架構(gòu)精心限制了人類(lèi)的角色——領(lǐng)域?qū)<遗cLLM進(jìn)行交互,以揭示(部分)評(píng)論家使用的模型,而最終用戶(hù)與LLM協(xié)作完善任何不完整的問(wèn)題規(guī)范。一個(gè)值得注意的、有意為之的缺失是人類(lèi)參與規(guī)劃的內(nèi)循環(huán)——例如,通過(guò)迭代提示。除了給復(fù)雜規(guī)劃問(wèn)題的人類(lèi)帶來(lái)不可行的負(fù)擔(dān)外,這種迭代提示策略還以其“聰明的漢斯”效應(yīng)而臭名昭著。
論文:https://arxiv.org/pdf/2402.01817
誰(shuí)是Subbarao Kambhampati?
Subbarao Kambhampati(簡(jiǎn)稱(chēng)Rao)教授是亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)教授,曾任人工智能促進(jìn)協(xié)會(huì)(AAAI)主席。他的研究重點(diǎn)是自動(dòng)化規(guī)劃和決策制定,特別是在人類(lèi)感知的人工智能系統(tǒng)背景下。他是一位備受贊譽(yù)的教師,花費(fèi)大量時(shí)間思考人們對(duì)人工智能的公眾認(rèn)知和社會(huì)影響。他曾是美國(guó)國(guó)家科學(xué)基金會(huì)的年輕研究員,并且是AAAI的會(huì)士。他在多個(gè)角色中為人工智能社區(qū)提供服務(wù),包括擔(dān)任IJCAI 2016的程序主席和AAAI 2005的程序聯(lián)合主席。Rao畢業(yè)于印度理工學(xué)院馬德拉斯分校獲得學(xué)士學(xué)位,后在馬里蘭大學(xué)學(xué)院公園分校獲得博士學(xué)位。
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線(xiàn)
