羅格斯大學(xué)華人團(tuán)隊(duì)開(kāi)源OpenAGI平臺(tái):語(yǔ)言模型是AGI的入口,領(lǐng)域?qū)<夷P筒豢苫蛉?/h1>
人類(lèi)所具有的智能,可以將一些最基礎(chǔ)的能力,通過(guò)某種組合變成一種復(fù)雜能力,并可以用來(lái)解決復(fù)雜的、多步驟的任務(wù)。
這種能力對(duì)人工智能(AI)的發(fā)展來(lái)說(shuō)同樣重要,在邁向最終的通用人工智能(AGI)的過(guò)程中,除了開(kāi)發(fā)大規(guī)模智能模型外,如何讓這些模型具有「利用各種特定領(lǐng)域?qū)<夷P鸵越鉀Q復(fù)雜任務(wù)的能力」也同樣重要。
在大型語(yǔ)言模型(LLMs)上取得的最新進(jìn)展讓我們看到了語(yǔ)言模型強(qiáng)大的學(xué)習(xí)和推理能力,有望成為未來(lái)AGI的接口以控制、執(zhí)行外部模型以解決復(fù)雜任務(wù)。
最近,來(lái)自羅格斯大學(xué)的一個(gè)華人團(tuán)隊(duì)開(kāi)源了一個(gè)AGI研究平臺(tái)OpenAGI,專(zhuān)門(mén)用于提供復(fù)雜的、多步驟的任務(wù),并輔助有特定任務(wù)的數(shù)據(jù)集、評(píng)估指標(biāo)和各種可擴(kuò)展的模型。
論文鏈接:https://arxiv.org/pdf/2304.04370.pdf
項(xiàng)目鏈接:https://github.com/agiresearch/OpenAGI
OpenAGI將復(fù)雜的任務(wù)制定為自然語(yǔ)言查詢(xún),并作為語(yǔ)言模型的輸入;隨后由語(yǔ)言模型進(jìn)行選擇、合成并執(zhí)行OpenAGI提供的模型來(lái)解決該任務(wù)。
此外,文中還提出了一個(gè)從任務(wù)反饋中強(qiáng)化學(xué)習(xí)(RLTF)的機(jī)制,使用任務(wù)解決的結(jié)果作為反饋來(lái)提高語(yǔ)言模型的任務(wù)解決能力;即語(yǔ)言模型負(fù)責(zé)綜合各種外部模型來(lái)解決復(fù)雜的任務(wù),而RLTF則提供反饋來(lái)提高其任務(wù)解決能力,從而實(shí)現(xiàn)自我改進(jìn)的人工智能的反饋循環(huán)機(jī)制。
研究人員認(rèn)為,語(yǔ)言模型操作各種專(zhuān)家模型解決復(fù)雜任務(wù)的范式是實(shí)現(xiàn)AGI的一個(gè)很有前途的方法。
在實(shí)驗(yàn)部分,研究人員使用OpenAGI對(duì)幾個(gè)成熟的語(yǔ)言模型進(jìn)行了評(píng)估,其規(guī)模從7.7億到1750億參數(shù)不等。
初步研究結(jié)果表明,即使是規(guī)模較小的語(yǔ)言模型,當(dāng)與適當(dāng)?shù)膶W(xué)習(xí)模式(如RLTF)配對(duì)時(shí),也具有超越更大規(guī)模模型的潛力。
語(yǔ)言模型是AGI的入口
最近發(fā)布的大型語(yǔ)言模型(LLMs),如GPT-3、LLaMA、Flan-T5等都展現(xiàn)出了對(duì)自然語(yǔ)言的深入理解能力,并可以生成連貫的、上下文相關(guān)的回復(fù),具有卓越的學(xué)習(xí)和推理能力,可以適用于選擇、合成和執(zhí)行外部專(zhuān)家模型以解決復(fù)雜的任務(wù)。
語(yǔ)言模型也并不局限于文本數(shù)據(jù),同樣可以應(yīng)用在涉及多模態(tài)的復(fù)雜任務(wù)中,如圖像和文本的處理,以及特定領(lǐng)域知識(shí)的整合;在理解和生成文本的過(guò)程中,語(yǔ)言模型起到至關(guān)重要的作用,可以幫助AI處理各種問(wèn)題。
通過(guò)整合不同領(lǐng)域的知識(shí)和技能,開(kāi)放領(lǐng)域模型合成(Open-domain Model Synthesis,OMS)具有推動(dòng)人工通用智能(AGI)發(fā)展的潛力、 使得人工智能能夠解決各種各樣的問(wèn)題和任務(wù)。
雖然該領(lǐng)域已有研究人員進(jìn)行了初步嘗試,但仍有幾個(gè)關(guān)鍵問(wèn)題需要解決:
1、可擴(kuò)展性(Extensibility), 一些相關(guān)工作使用固定數(shù)量的模型,如WebGPT和 ToolFormer,導(dǎo)致很難在后續(xù)進(jìn)一步擴(kuò)展模型的能力;
2、非線性任務(wù)規(guī)劃( Nonlinear Task Planning):目前的研究大多局限于用線性任務(wù)規(guī)劃方案來(lái)解決問(wèn)題,即每個(gè)子任務(wù)必須在下一個(gè)子任務(wù)開(kāi)始之前完成,這種方式可能無(wú)法解決過(guò)于復(fù)雜的、涉及多模態(tài)的任務(wù);
3、定量評(píng)估(Quantitative Evaluation):許多現(xiàn)有的工作只提供了定性的結(jié)果(如HuggingGPT)只依靠人類(lèi)的主觀評(píng)價(jià),很難快速、公正地評(píng)估LLM的規(guī)劃能力,無(wú)法確定所采用的策略是否最優(yōu)。
OpenAGI平臺(tái)
OpenAGI平臺(tái)的目標(biāo)就是緩解上述三個(gè)局限性,其中包含多樣化的特定領(lǐng)域?qū)<夷P秃蛷?fù)雜的多步驟任務(wù),支持單模態(tài)或多模態(tài)輸入,并有相應(yīng)的數(shù)據(jù)集作支撐。
OpenAGI的具體工作流程為:
1)選擇自然語(yǔ)言任務(wù)描述和任務(wù)相關(guān)的數(shù)據(jù)集;
2)將任務(wù)描述作為輸入送入大型語(yǔ)言模型以生成解決方案,可能需要將解決方案映射到功能模型名稱(chēng),或使用約束生成直接生成模型名稱(chēng);
3)選擇和合成模型,并執(zhí)行以處理數(shù)據(jù)樣本;
4)評(píng)估語(yǔ)言模型的任務(wù)解決能力可以通過(guò)比較輸出和真實(shí)標(biāo)簽的一致性。
模型與數(shù)據(jù)集
OpenAGI內(nèi)的專(zhuān)家模型主要來(lái)自于Hugging Face的transformers和diffusers庫(kù)、以及Github存儲(chǔ)庫(kù)。
OpenAGI的系統(tǒng)設(shè)計(jì)很靈活,用戶(hù)可以自行接入領(lǐng)域任務(wù)與模型,目前包括:
語(yǔ)言相關(guān)的模型
視覺(jué)相關(guān)的模型
視覺(jué)-語(yǔ)言相關(guān)的模型
在數(shù)據(jù)集方面為了能夠與各自模型的訓(xùn)練數(shù)據(jù)集保持一致或相似,主要包括:ImageNet-1K、COCO、CNN/Daily Mail、SST2、TextVQA、SQuAD等;
在確定了原始數(shù)據(jù)集后,采用數(shù)據(jù)增強(qiáng)方法從不同的角度對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,以構(gòu)建復(fù)雜的、多步驟的任務(wù),包括高斯模糊、高斯噪聲、灰度、低分辨率、翻譯、單詞遮罩。
評(píng)估指標(biāo)包括CLIP分?jǐn)?shù)(圖文相似度)、BERT分?jǐn)?shù)(文本相似度)、ViT分?jǐn)?shù)(視覺(jué)相似度)。
局限性
不過(guò)OpenAGI也進(jìn)一步暴露了目前各種模型的局限性:
1. 分布外泛化(Out-of-Distribution Generalization)
因?yàn)樘囟I(lǐng)域的專(zhuān)家模型對(duì)訓(xùn)練數(shù)據(jù)的分布有強(qiáng)烈的依賴(lài)性,在泛化能力上可能十分有限,當(dāng)處理來(lái)自不同來(lái)源的、表現(xiàn)出分布變化的圖像時(shí),原始模型序列變得無(wú)效了。
上圖的例子中,在大多數(shù)情況下,只有少數(shù)顏色被模型準(zhǔn)確地恢復(fù),并且可能是不正確的;此外噪音和模糊的存在,對(duì)人類(lèi)觀察者來(lái)說(shuō)仍然是高度可感知的。
2. 最優(yōu)任務(wù)規(guī)劃(Optimal Task Planning)
結(jié)合不同的模型來(lái)產(chǎn)生解決方案的方法有很多,可能使我們難以確定最佳的方法;并且對(duì)于一個(gè)給定的任務(wù)來(lái)說(shuō),有可能存在多個(gè)有效的解決方案,但每個(gè)解決方案的質(zhì)量可能差別很大。
例如,上圖中以不同的順序執(zhí)行相同的四個(gè)模型會(huì)導(dǎo)致明顯不同的結(jié)果。與第一種方法相比,第二種方法的結(jié)果表現(xiàn)出明顯更多的噪音和顏色不一致的情況。
因此,對(duì)于大型語(yǔ)言模型來(lái)說(shuō),從各種可能性中確定并實(shí)施最佳的任務(wù)計(jì)劃是至關(guān)重要的
3. 非線性任務(wù)結(jié)構(gòu)(Nonlinear Task Structures)
在模型執(zhí)行過(guò)程中,一個(gè)模型可能需要一個(gè)以上的輸入,而每個(gè)輸入都需要由前一個(gè)模型產(chǎn)生,從而導(dǎo)致解決方案的非線性(樹(shù)狀)結(jié)構(gòu)。
在這種情況下,采用非線性任務(wù)規(guī)劃可以更有效地整合不同的輸入,更有效地對(duì)模型進(jìn)行并行處理以達(dá)到預(yù)期的結(jié)果。
然而,將這種非線性任務(wù)規(guī)劃能力納入大型語(yǔ)言性會(huì)帶來(lái)更大的挑戰(zhàn),有可能超出語(yǔ)言模型的任務(wù)解決能力范圍。
RLTF+非線性任務(wù)規(guī)劃
為了解決「分布外泛化」和「最優(yōu)任務(wù)規(guī)劃」的問(wèn)題,研究人員提出了從任務(wù)反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Task Feedback,RLTF)的機(jī)制,基于在執(zhí)行大型語(yǔ)言模型中設(shè)計(jì)的解決方案后從任務(wù)中獲取的性能反饋,可以有效地完善語(yǔ)言模型的規(guī)劃策略,從而形成了一個(gè)增強(qiáng)的、更具適應(yīng)性的系統(tǒng)。
事實(shí)上,在面對(duì)現(xiàn)實(shí)世界的任務(wù)時(shí),僅僅依靠輸入文本的學(xué)習(xí)對(duì)大型語(yǔ)言模型來(lái)說(shuō)是不夠的;任務(wù)反饋提供了額外的信息,將LLM的學(xué)習(xí)軌跡引向改進(jìn)且有效的解決方案。
對(duì)于「非線性任務(wù)結(jié)構(gòu)」問(wèn)題,研究人員提出了非線性任務(wù)規(guī)劃,利用beam search作為一種有效的半自回歸解碼方法,在每個(gè)解碼步驟中,不同的假設(shè)(hypotheses)被視為不同輸入的平行可操作解決方案,而非相互競(jìng)爭(zhēng)的假設(shè)。
為了達(dá)到這個(gè)目的,語(yǔ)言模型必須滿(mǎn)足三個(gè)條件:1)只生成模型名稱(chēng),沒(méi)有無(wú)關(guān)的標(biāo)記;2)生成有效的模型序列;3)必要時(shí)為不同的輸入生成并行的模型序列。
如果一個(gè)任務(wù)需要對(duì)多個(gè)輸入進(jìn)行并行處理,如文本和圖像,那么在生成時(shí),一個(gè)以文本為輸入的可操作方案和另一個(gè)以圖像為輸入的方案將被生成并并行地執(zhí)行。
實(shí)驗(yàn)結(jié)果
與LLaMA-7b和Flan-T5-Large相比,GPT-3.5-turbo在零樣本和少樣本學(xué)習(xí)設(shè)置中都表現(xiàn)出優(yōu)越的性能,在BERT評(píng)分、ViT評(píng)分和整體性能中都取得了更高的評(píng)分。
LLaMA-7b雖然表現(xiàn)不如GPT-3.5-turbo,但與它的零樣本學(xué)習(xí)性能相比,在少樣本學(xué)習(xí)中表現(xiàn)出更好的整體性能;不過(guò)在相同設(shè)置下,其性能仍遠(yuǎn)低于GPT-3.5-turbo。
與零樣本和少樣本學(xué)習(xí)策略相比,使用微調(diào)或來(lái)自任務(wù)反饋的強(qiáng)化學(xué)習(xí)(RLTF)時(shí),F(xiàn)lan-T5-Large展現(xiàn)出明顯的性能提升。
在進(jìn)一步的分析中可以發(fā)現(xiàn),在零樣本的情況下,大多數(shù)語(yǔ)言模型都很難生成有效的任務(wù)規(guī)劃,更不用說(shuō)最佳解決方案;特別是,GPT-3.5傾向于產(chǎn)生重復(fù)的內(nèi)容,隨后映射到相同的模型名稱(chēng)。
同時(shí),LLaMA-7b和Flan-T5-Large受制于它們的零樣本能力,同樣未能生成一個(gè)合理的計(jì)劃。
在少樣本的設(shè)置中,加入了幾個(gè)手動(dòng)標(biāo)注的任務(wù)計(jì)劃作為指導(dǎo)生成的指令后,可以看到任務(wù)計(jì)劃的質(zhì)量得到了顯著的改善。
三個(gè)語(yǔ)言模型都能在短時(shí)間內(nèi)生成合理的規(guī)劃,與所提供的例子在語(yǔ)義上相似的解決方案。