OpenAI科學(xué)家最新演講:GPT-4即將超越拐點(diǎn),1000倍性能必定涌現(xiàn)!
「GPT-4即將超越拐點(diǎn),并且性能實(shí)現(xiàn)顯著跳躍」。
這是OpenAI科學(xué)家Hyung Won Chung在近來(lái)的演講中,對(duì)大模型參數(shù)規(guī)模擴(kuò)大能力飆升得出的論斷。
在他看來(lái),我們所有人需要改變觀點(diǎn)。LLM實(shí)則蘊(yùn)藏著巨大的潛力,只有參數(shù)量達(dá)到一定規(guī)模時(shí),能力就會(huì)浮現(xiàn)。
圖片
Hyung Won Chung將這次演講題目定為「2023年的大型語(yǔ)言模型」,旨對(duì)LLM領(lǐng)域的發(fā)展做一個(gè)總結(jié)。
在這個(gè)領(lǐng)域中,真正重要的是什么?雖然「模型擴(kuò)展」無(wú)疑是突出的,但其深遠(yuǎn)的意義卻更為微妙和細(xì)膩。
圖片
在近一個(gè)小時(shí)的演講中,Hyung Won Chung從三個(gè)方面分享了自己過(guò)去4年從業(yè)以來(lái)對(duì)「擴(kuò)展」的思考。
都有哪些亮點(diǎn)?
參數(shù)規(guī)模越大,LLM勢(shì)必「涌現(xiàn)」
Hyung Won Chung強(qiáng)調(diào)的核心點(diǎn)是,「持續(xù)學(xué)習(xí),更新認(rèn)知,采取以“規(guī)模”為先的視角非常重要」。
因?yàn)橹挥性谀P瓦_(dá)到一定規(guī)模時(shí),某些能力才會(huì)浮現(xiàn)。
多項(xiàng)研究表明,小模型無(wú)法解決一些任務(wù),有時(shí)候還得需要依靠隨機(jī)猜測(cè),但當(dāng)模型達(dá)到一定規(guī)模時(shí),就一下子解決了,甚至有時(shí)表現(xiàn)非常出色。
因此,人們將這種現(xiàn)象稱(chēng)之為「涌現(xiàn)」。
圖片
即便當(dāng)前一代LLM還無(wú)法展現(xiàn)出某些能力,我們也不應(yīng)該輕言「它不行」。相反,我們應(yīng)該思考「它還沒(méi)行」。
一旦模型規(guī)模擴(kuò)大,許多結(jié)論都會(huì)發(fā)生改變。
這促使許多研究人員能夠以一個(gè)新的視角去看待這個(gè)問(wèn)題,即推理思路的根本性轉(zhuǎn)變,從「一些方法現(xiàn)在不起作用」,到「一些方法只是在當(dāng)前不起作用」。
也就是,最新方法可能不適用于當(dāng)前模型,但是3-5年后,可能變得有效。
有著新穎視角的AI新人,通??梢詭ё龀鲇杏绊懥ρ芯?。那是因?yàn)樗麄儾皇芤环N直覺(jué)和想法的束縛,即經(jīng)驗(yàn)豐富的人可能已經(jīng)嘗試過(guò)但發(fā)現(xiàn)不成功的方法。
Hyung Won Chung表示,自己平時(shí)在實(shí)驗(yàn)過(guò)程中,會(huì)記錄下失敗的過(guò)程。每當(dāng)有了新的模型,他就會(huì)再次運(yùn)行實(shí)驗(yàn),再來(lái)查驗(yàn)?zāi)男┦浅晒Φ?,哪些是失敗的,以此往?fù)。
這樣一來(lái),就可以不斷更新和糾正自我認(rèn)知和理解,適應(yīng)技術(shù)的日新月異。
目前,GPT-3和GPT-4之間的能力仍然存在顯著差距,嘗試去彌合與當(dāng)前模型的差距可能是無(wú)效的。
圖片
那么,已經(jīng)有了規(guī)模的發(fā)展性觀點(diǎn)后,我們?cè)撊绾螖U(kuò)大參數(shù)規(guī)模?
第一性原理看Transformer
迄今為止,所有大模型背后的架構(gòu)都是基于Transformer搭建的。想必很多人已經(jīng)對(duì)下圖的樣子熟記于心。
圖片
這里,Hyung Won Chung從第一性原理出發(fā)探討Transformer的核心思想,并強(qiáng)調(diào)了Transformer內(nèi)部架構(gòu)細(xì)節(jié)并非關(guān)注重點(diǎn)。
他注意到,許多LLM的研究者不熟悉擴(kuò)展的具體操作。因此,這部分內(nèi)容主要是為那些想要理解大型模型訓(xùn)練含義的技術(shù)人員準(zhǔn)備的。
從功能性角度來(lái)看,可以把Transformer看作帶有矩陣乘法一種簡(jiǎn)潔的序列到序列的映射,并可以進(jìn)行相應(yīng)數(shù)組轉(zhuǎn)換。
圖片
所以,擴(kuò)大Transformer的規(guī)模就是,讓很多很多機(jī)器高效地進(jìn)行矩陣乘法。
圖片
通過(guò)將注意力機(jī)制拆分為單獨(dú)的頭,利用多臺(tái)機(jī)器和芯片,并使用GSP MD方法進(jìn)行無(wú)需通信的并行化。
然后借助Jax的前端工具PJ將陣列軸映射到硬件,可以實(shí)現(xiàn)大型語(yǔ)言模型的并行化。
預(yù)訓(xùn)練模型的規(guī)模將跨越數(shù)量級(jí),縮放法則是用小規(guī)模模型開(kāi)發(fā)的。
圖片
1萬(wàn)倍GPT-4,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù)
再進(jìn)一步擴(kuò)展模型規(guī)模時(shí),設(shè)想是GPT-4的10000倍,應(yīng)該考慮什么?
對(duì)Hyung Won Chung來(lái)說(shuō),擴(kuò)展不只是用更多的機(jī)器做同樣的事情,更關(guān)鍵的是找到限制進(jìn)一步擴(kuò)展的「歸納偏差」(inductive bias)。
總之,擴(kuò)展并不能解決所有問(wèn)題,我們還需要在這大規(guī)模工程的工作中做更多研究,也就是在后訓(xùn)練中的工作。
你不能直接與預(yù)訓(xùn)練模型對(duì)話(huà),但它會(huì)在提示后繼續(xù)生成,而不是回答問(wèn)題。即使提示是惡意的,也會(huì)繼續(xù)生成。
模型后訓(xùn)練的階段的步驟包括,指令調(diào)優(yōu)——獎(jiǎng)勵(lì)模型訓(xùn)練——策略模型訓(xùn)練,這也就是我們常說(shuō)的RLHF。
圖片
盡管RLHF有著一些弊端,比如獎(jiǎng)勵(lì)模型容易受到「獎(jiǎng)勵(lì)」的影響,還有開(kāi)放的研究問(wèn)題需要解決,但是我們還是要繼續(xù)研究RLHF。
因?yàn)椋畲笏迫环w納偏差太大;學(xué)習(xí)目標(biāo)函數(shù)(獎(jiǎng)勵(lì)模型)以釋放縮放中的歸納偏差,是一種不同的范式,有很大的改進(jìn)空間。
圖片
另外,RLHF是一種有原則的算法 ,需要繼續(xù)研究,直到成功為止。
總之,在Hyung Won Chung認(rèn)為,最大似然估計(jì)目標(biāo)函數(shù),是實(shí)現(xiàn)GPT-4 10000倍規(guī)模的瓶頸。
使用富有表達(dá)力的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù),將是下一個(gè)更加可擴(kuò)展的范式。隨著計(jì)算成本的指數(shù)級(jí)下降,可擴(kuò)展的方法終將勝出。
圖片
「不管怎么說(shuō),從第一原理出發(fā)理解核心思想是唯一可擴(kuò)展的方法」。
參考資料:
https://twitter.com/xiaohuggg/status/1711714757802369456?s=20
https://twitter.com/dotey/status/1711504620025942243