張俊林:OpenAI o1的價(jià)值意義及強(qiáng)化學(xué)習(xí)的Scaling Law
蹭下熱度談?wù)?OpenAI o1 的價(jià)值意義及 RL 的 Scaling law。
一、OpenAI o1 是大模型的巨大進(jìn)步
我覺得 OpenAI o1 是自 GPT 4 發(fā)布以來,基座大模型最大的進(jìn)展,邏輯推理能力提升的效果和方法比預(yù)想的要好,GPT 4o 和 o1 是發(fā)展大模型不同的方向,但是 o1 這個(gè)方向更根本,重要性也比 GPT 4o 這種方向要重要得多,原因下面會(huì)分析。
為什么說 o1 比 4o 方向重要?
這是兩種不同的大模型發(fā)展思路,說實(shí)話在看到 GPT 4o 發(fā)布的時(shí)候我是有些失望的,我當(dāng)時(shí)以為 OpenAI 會(huì)優(yōu)先做 o1 這種方向,但是沒想到先出了 GPT 4o。GPT 4o 本質(zhì)上是要探索不同模態(tài)相互融合的大一統(tǒng)模型應(yīng)該怎么做的問題,對于提升大模型的智力水平估計(jì)幫助不大;而 o1 本質(zhì)上是在探索大模型在 AGI 路上能走多遠(yuǎn)、天花板在哪里的問題,很明顯第二個(gè)問題更重要。
GPT 4o 的問題在于本身大模型的智力水平還不夠高,所以做不了復(fù)雜任務(wù),導(dǎo)致很多應(yīng)用場景無法實(shí)用化,而指望靠圖片、視頻這類新模態(tài)數(shù)據(jù)大幅提升大模型智力水平是不太可能的,盡管確實(shí)能拓展更豐富的多模態(tài)應(yīng)用場景,但這類數(shù)據(jù)彌補(bǔ)的更多是大模型對外在多模態(tài)世界的感知能力,而不是認(rèn)知能力。提升大模型認(rèn)知能力主要還要靠 LLM 文本模型,而提升 LLM 模型認(rèn)知能力的核心又在復(fù)雜邏輯推理能力。LLM 的邏輯推理能力越強(qiáng),則能解鎖更多復(fù)雜應(yīng)用,大模型應(yīng)用的天花板就越高,所以不遺余力地提升大模型尤其是文本模型的邏輯能力應(yīng)該是最重要的事情,沒有之一。
如果 o1 模型能力越做越強(qiáng),則可以反哺 GPT 4o 這種多模態(tài)大一統(tǒng)模型,可以通過直接用 o1 基座模型替換 GPT 4o 的基座、或者利用 o1 模型生成邏輯推理方面的合成數(shù)據(jù)增強(qiáng) GPT 4o、再或者用 o1 蒸餾 GPT 4o 模型….. 等等,能玩的花樣應(yīng)該有很多,都可以直接提升 GPT 4o 的復(fù)雜任務(wù)解決能力,從而解鎖更復(fù)雜的多模態(tài)應(yīng)用場景。OpenAI 未來計(jì)劃兩條線,一條是 o1,一條是 GPT 4o,它的內(nèi)在邏輯大概應(yīng)該是這樣的,就是說通過 o1 增強(qiáng)最重要的基座模型邏輯推理能力,而再把這種能力遷移到 GPT 4o 這種多模態(tài)通用模型上。
OpenAI o1 的做法本質(zhì)上是 COT 的自動(dòng)化。
我們知道,通過 COT 把一個(gè)復(fù)雜問題拆解成若干簡單步驟,這有利于大模型解決復(fù)雜邏輯問題,但之前主要靠人工寫 COT 來達(dá)成。從用戶提出的問題形成樹的根結(jié)點(diǎn)出發(fā),最終走到給出正確答案,可以想像成類似 AlphaGo 下棋,形成了巨大的由 COT 具體步驟構(gòu)成的樹形搜索空間,這里 COT 的具體步驟的組合空間是巨大的,人寫的 COT 未必最優(yōu)。如果我們有大量邏輯數(shù)據(jù),是由 <問題,明確的正確答案> 構(gòu)成,則通過類似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 強(qiáng)化學(xué)習(xí),確實(shí)是可以訓(xùn)練大模型快速找到通向正確答案的 COT 路徑的。
而問題越復(fù)雜,則這個(gè)樹的搜索空間越大,搜索復(fù)雜度越高,找到正確答案涉及到的 COT 步驟越多,則模型生成的 COT 就越復(fù)雜,體現(xiàn)在 o1 的速度越慢,生成的 COT Token 數(shù)越多。很明顯,問題越復(fù)雜,o1 自己生成的隱藏的 COT 越長,大模型推理成本越高,但效果最重要,成本其實(shí)不是問題,最近一年大模型推理成本降低速度奇快,這個(gè)總有辦法快速降下去。
從上面 o1 的做法可以知道 Prompt 工程會(huì)逐漸消亡。
之前解決復(fù)雜問題,需要人寫非常復(fù)雜的 Prompt,而 o1 本質(zhì)上是 COT 等復(fù)雜 Prompt 的自動(dòng)化,所以之后是不太需要用戶自己構(gòu)造復(fù)雜 Prompt 的。本來讓用戶寫復(fù)雜 Prompt 就是不人性化的,所有復(fù)雜人工環(huán)節(jié)的自動(dòng)化,這肯定是大勢所趨。
Agent 屬于概念火但無法實(shí)用化的方向,主要原因就在于基座模型的復(fù)雜推理能力不夠強(qiáng)。如果通過基座模型 Plan 把一個(gè)復(fù)雜任務(wù)分解為 10 個(gè)步驟,哪怕單個(gè)步驟的正確率高達(dá) 95%,要想最后把任務(wù)做對,10 個(gè)環(huán)節(jié)的準(zhǔn)確率連乘下來,最終的正確率只有 59%,慘不忍睹。那有了 o1 是不是這個(gè)方向就前途坦蕩?也是也不是,o1 的 Model Card 專門測試了 Agent 任務(wù),對于簡單和中等難度的 Agent 任務(wù)有明顯提升,但是復(fù)雜的、環(huán)節(jié)多的任務(wù)準(zhǔn)確率還是不太高。就是說,不是說有了 o1 Agent 就現(xiàn)狀光明,但是很明顯 o1 這種通過 Self Play 增強(qiáng)邏輯推理能力的方向應(yīng)該還有很大的發(fā)展?jié)摿Γ瑥倪@個(gè)角度講說 Agent 未來前途光明問題應(yīng)該不大。
OpenAI 很多時(shí)候起到一個(gè)行業(yè)指路明燈的作用,往往是第一個(gè)證明某個(gè)方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括這次的 o1),然后其他人開始瘋狂往這個(gè)方向卷,到后來甚至卷的速度太快把 OpenAI 都甩到后面吃尾氣。典型例子就是 Sora,如果 OpenAI 不是出于阻擊競爭對手秀一下肌肉,大家都沒有意識(shí)到原來這個(gè)方向是可以走這么遠(yuǎn)的,但當(dāng)意識(shí)到這一點(diǎn)后,只要你專一地卷一個(gè)方向,方向明確且資源聚焦,是可能趕超 OpenAI 的,目前國內(nèi)外各種視頻生成模型有些甚至可能已經(jīng)比 Sora 好了,Sora 至今仍然是期貨狀態(tài),主要 OpenAI 想做的方向太多,資源分散導(dǎo)致分到具體一個(gè)方向的資源不夠用,所以越往后發(fā)展期貨狀態(tài)的方向越多,也讓人覺得盡顯疲態(tài)。
OpenAI o1 等于給大家又指出了一個(gè)前景光明的方向,估計(jì)后面大家又開始都往這個(gè)方向卷。我覺得卷這個(gè)方向比去卷 GPT 4o 和視頻生成要好,雖然具體怎么做的都不知道,但是大方向清楚且效果基本得到證明,過半年肯定頭部幾家都能摸清具體技術(shù)追上來,希望能再次讓 OpenAI 吃尾氣。而且這個(gè)方向看上去資源耗費(fèi)應(yīng)該不會(huì)特別大,偏向算法和數(shù)據(jù)一些,數(shù)據(jù)量規(guī)模估計(jì)不會(huì)特別巨大,卷起來貌似成本低一些。這是個(gè)卷的好方向。
二、預(yù)訓(xùn)練 Scaling Law 的來源及 O1 提到的 RL Scaling law
粗分的話,大語言模型最基礎(chǔ)的能力有三種:語言理解和表達(dá)能力、世界知識(shí)存儲(chǔ)和查詢能力以及邏輯推理能力(包括數(shù)學(xué)、Coding、推理等理科能力,這里 Coding 有一定的特殊性,是語言能力和邏輯摻雜在一起的混合能力,Coding 從語言角度可以看成一種受限的自然語言,但是混雜著復(fù)雜的內(nèi)在邏輯問題。從語言角度看,Coding 貌似是容易解決的,從邏輯角度看又相對難解決。總之,Coding 目前看是除了語言理解外,大模型做得最好的方向)。
語言理解和表達(dá)是 LLM 最強(qiáng)的能力,初版 ChatGPT 就可以完全勝任各種純語言交流的任務(wù),基本達(dá)到人類水準(zhǔn),目前即使是小模型,在這方面比大模型能力也不弱;世界知識(shí)能力雖說隨著模型規(guī)模越大效果越好,但幻覺問題目前無法根治,這是制約各種應(yīng)用的硬傷之一;邏輯推理能力一直都是 LLM 的弱項(xiàng),也是最難提升的方面,從 GPT 4 開始往后,如何有效并大幅提升 LLM 的邏輯推理能力是體現(xiàn)不同大模型差異和優(yōu)勢的最核心問題。所以,大模型最重要的一個(gè)是世界知識(shí)方面如何有效消除幻覺,一個(gè)是如何大幅提升復(fù)雜邏輯推理能力。語言能力已不是問題。
從大模型的基礎(chǔ)能力,我們再說回已經(jīng)被談濫了的大模型 Scaling law。現(xiàn)在普遍認(rèn)為通過增加數(shù)據(jù)和模型規(guī)模來提升大模型效果的 Scaling law 模式,其增長速度在放緩。其實(shí)我們對照下大模型的三個(gè)基礎(chǔ)能力的能力來源,基本就能看出來這是為啥(以下是我猜的,不保真):
本質(zhì)上大模型的能力來源都來自訓(xùn)練數(shù)據(jù),包含能體現(xiàn)這方面能力的訓(xùn)練數(shù)據(jù)越多,則這種能力越強(qiáng)。語言能力不用說了,任意一份預(yù)訓(xùn)練數(shù)據(jù),其中都包含相當(dāng)比例的語言的詞法句法等成分,所以訓(xùn)練數(shù)據(jù)中體現(xiàn)語言能力的數(shù)據(jù)是最多的,這也是為何大模型的語言能力最強(qiáng)的原因。
而數(shù)據(jù)中包含的世界知識(shí)含量,基本是和訓(xùn)練數(shù)據(jù)量成正比的,明顯數(shù)據(jù)量越多,包含的世界知識(shí)越多,Scaling law 是數(shù)據(jù)中包含的世界知識(shí)含量關(guān)系的一個(gè)體現(xiàn),但是這里有個(gè)問題,大模型見過越多數(shù)據(jù),則新數(shù)據(jù)里面包含的新知識(shí)比例越小,因?yàn)楹芏嘀R(shí)在之前的數(shù)據(jù)里都見過了,所以隨著數(shù)據(jù)規(guī)模增大,遇到的新知識(shí)比例就越低,在世界知識(shí)方面就體現(xiàn)出 Scaling law 的減緩現(xiàn)象。
為啥邏輯推理能力最難提升?因?yàn)槟荏w現(xiàn)這方面的自然數(shù)據(jù)(代碼、數(shù)學(xué)題、物理題、科學(xué)論文等)在訓(xùn)練數(shù)據(jù)中比例太低,自然大模型就學(xué)不好,盡管通過不斷增加數(shù)據(jù),能增加邏輯推理方面數(shù)據(jù)的絕對數(shù)量,但因?yàn)檎急忍伲@方面提升的效果和增加的總體數(shù)據(jù)規(guī)模就不成比例,效果也不會(huì)太明顯,就體現(xiàn)在邏輯推理能力 Scaling law 看上去的放緩。這是很自然的。這也是為何現(xiàn)在為了提高模型邏輯能力,往往在預(yù)訓(xùn)練階段和 Post-training 階段,大幅增加邏輯推理數(shù)據(jù)占比的原因,且是有成效的。
所以目前大模型的核心能力提升,聚焦到不斷通過合成數(shù)據(jù)等方式構(gòu)造更多比例的邏輯推理數(shù)據(jù)上來。但是大部分邏輯推理數(shù)據(jù)的形式是 < 問題,正確答案 >,缺了中間的詳細(xì)推理步驟,而 o1 本質(zhì)上是讓大模型學(xué)會(huì)自動(dòng)尋找從問題到正確答案的中間步驟,以此來增強(qiáng)復(fù)雜問題的解決能力。
OpenAI o1 提到了關(guān)于 RL 在訓(xùn)練和推理時(shí)候的 Scaling law,并指出這與預(yù)訓(xùn)練時(shí)候的 Scaling law 具有不同特性。很明顯,如果 o1 走的是 MCTS 搜索技術(shù)路線,那么把 COT 拆分的越細(xì)(增加搜索樹的深度),或提出更多的可能選擇(節(jié)點(diǎn)的分支增多,就是說樹的寬度越寬),則搜索空間越大,找到好 COT 路徑可能性越大,效果越好,而訓(xùn)練和推理的時(shí)候需要算力肯定越大。看上去有著效果隨著算力增長而增長的態(tài)勢,也就是所謂的 RL 的 Scaling law。這其實(shí)是樹搜索本來應(yīng)有之義,我倒覺得把這個(gè)稱為 RL 的 Scaling law 有點(diǎn)名不副實(shí)。