Transformer推理天花板被谷歌打破?DeepMind首席科學(xué)家亮出84頁P(yáng)PT,卻遭LeCun反對(duì)
隨著OpenAI o1的爆火,最近CoT也成了圈內(nèi)熱議的高頻詞。
靠著CoT的強(qiáng)力加持,o1直接在LLM領(lǐng)域首次實(shí)現(xiàn)了通用復(fù)雜推理能力,儼然是AI發(fā)展新范式的開端。
許多人驚呼:莫非CoT就是通往AGI的正確路徑?
而且,o1這種慢思考模式不僅幫助LLM做數(shù)學(xué)和符號(hào)推理,甚至,還讓LLM發(fā)展出了類人情感!
最近,斯坦福等機(jī)構(gòu)學(xué)者發(fā)文證實(shí):LLM在情感方面表現(xiàn)出的認(rèn)知和推理比人類還像人類,背后最大貢獻(xiàn)者竟然就是CoT。
就在這幾天,風(fēng)口浪尖上的CoT,又讓AI社區(qū)掀起了一場風(fēng)波。
谷歌DeepMind首席科學(xué)家稱LLM推理無極限,LeCun田淵棟回懟
CoT爆火之后,谷歌DeepMind首席科學(xué)家Denny Zhou拿出了自己團(tuán)隊(duì)八月份的一篇論文,拋出了這樣的觀點(diǎn):「LLM推理能力的極限是什么?那就是沒有限制」。
他表示,谷歌團(tuán)隊(duì)已經(jīng)用數(shù)學(xué)方法證明,Transformer可以解決任何問題,只要允許它們根據(jù)需要生成任意數(shù)量的中間推理token。
可以看出,Denny Zhou等人提出的中間推理token,跟o1的核心技術(shù)CoT非常相似。
傳統(tǒng)的Transformer模型的致命弱點(diǎn),就是擅長并行計(jì)算,但不擅長串行推理。
而CoT,恰恰解決了這個(gè)問題。
在這項(xiàng)工作中,Denny Zhou等人發(fā)現(xiàn):傳統(tǒng)的Transformer模型,只能解決AC0電路能解決的問題;但一旦加入CoT,Transformer幾乎可以解決任何問題。
只要CoT步驟足夠多,Transformer就能模擬任意大小的布爾電路,解決P/poly問題
也就是說,可以用數(shù)學(xué)嚴(yán)格證明,CoT可以讓Transformer解決幾乎所有能用計(jì)算機(jī)解決的問題。
利用CoT,可以模擬布爾電路中每個(gè)邏輯門的計(jì)算
這項(xiàng)工作暗示著,CoT為更強(qiáng)大的LLM推理提供了新的思路,CoT或?qū)⒊蔀槲磥鞮LM發(fā)展的重要方向,而且很可能閃爍著AGI的火花。
Denny Zhou發(fā)帖后,立即引發(fā)了AI社區(qū)的熱議。
多位研究者下場討論,也驚動(dòng)了其他大佬。
這不,就在剛剛,田淵棟和LeCun依次發(fā)表意見,回懟了Denny Zhou。
在他們看來,CoT的作用,被遠(yuǎn)遠(yuǎn)夸大了。
田淵棟表示,雖然CoT的確很有用,但Denny Zhou等人對(duì)其過于盲目追捧了,顯然,CoT并不是我們所需要的一切。
在這篇論文中提到的是一種通用理論,可以通過顯式構(gòu)建Transformer權(quán)重,讓其更好地適應(yīng)特定任務(wù)。
然而這樣,CoT的長度就會(huì)很長,這樣的權(quán)重配置,能否通過梯度下降來學(xué)習(xí)呢?
理論上,2層多層感知器是可以擬合任何數(shù)據(jù)的,那我們就該相信它可以應(yīng)用在所有場景中嗎?
人類的推練鏈?zhǔn)鞘趾啙嵉模鎸?duì)從未見過的問題,也能捕捉關(guān)鍵因素。但LLM可以嗎?
如何在瞬間就學(xué)習(xí)或構(gòu)建出這樣的表征,是很令人著迷的。
田淵棟的帖子一發(fā)出,立刻就獲得了LeCun的支持。
LeCun表示,自己本來也想發(fā)表類似的言論,不巧被田淵棟搶先了。
「2層網(wǎng)絡(luò)和核機(jī)器可以無限逼近任何函數(shù),達(dá)到我們想要的精度,所以我們不需要深度學(xué)習(xí)?!?/span>
從1995年到2010年,LeCun聽到這個(gè)說法無數(shù)遍了。
當(dāng)然,這個(gè)操作理論上是可行的。但如果真的在實(shí)踐中應(yīng)用所有相關(guān)的函數(shù),光是第一層中的神經(jīng)元數(shù)量就會(huì)多到不可思議。
對(duì)此,網(wǎng)友的評(píng)價(jià)是:收斂和等價(jià)證明被高估了,高效的學(xué)習(xí)策略被低估了,就是這樣。
「我很高興Python的存在,盡管Pascal是圖靈完備的?!?/span>
一位從業(yè)者表示,自己的研究是從一個(gè)隱藏層MLP判別式開始,然后就是CNN或Deep NN等專業(yè)模型。
他的判斷是:較小的模型更穩(wěn)健、更可解釋,而且通常很接近,但永遠(yuǎn)不會(huì)那么好。而使用更深層次的模型,總是會(huì)有額外的百分比。
很多人是「挺CoT派」的。比如有人表示理解LeCun的觀點(diǎn),但在多維擴(kuò)展場景中,CoT絕對(duì)大有潛力。
而對(duì)于LeCun所擔(dān)心的問題,有網(wǎng)友表示,LeCun在采用一種自上而下的策略,在這種情況下他必須控制所有的第一層輸入,但其實(shí),他并不需要。
因?yàn)?,CoT通過創(chuàng)建了新的臨時(shí)層,讓人放棄了對(duì)這種控制的幻想。其解決方案就是,通過網(wǎng)絡(luò)層的一般形式,來逼近注意力頭本身。
有趣的是,該網(wǎng)友表示,自己的靈感來源是《物理學(xué)》上的一封信,表明量子全息拓?fù)淠芨行У貪M足這一點(diǎn)。
即使愛因斯坦-羅森橋的邊界相當(dāng)大,它可以更連續(xù)地離散表示為無數(shù)不同的小層,橫跨所產(chǎn)生的平坦空間。這,就是表征的力量所在。
有人表示,這個(gè)討論沒什么意思,本質(zhì)上不過是「無限猴子定理」罷了。
讓一只猴子在打字機(jī)上隨機(jī)按鍵,當(dāng)按鍵時(shí)間達(dá)到無窮時(shí),幾乎必然能打出任何給定文字,比如莎士比亞全集。
田淵棟:可以發(fā)展,但更復(fù)雜
最終,田淵棟也承認(rèn),谷歌這篇論文的思路的確有可取之處。然而由于涉及到不同的數(shù)據(jù)分布、模型架構(gòu)、學(xué)習(xí)算法、后處理等等,問題還要更復(fù)雜。
正如Evolutionary Scale聯(lián)創(chuàng)Zeming Lin所言:我們需要像喬姆斯基層次結(jié)構(gòu)這樣的機(jī)器學(xué)習(xí)模型。就像ML模型有NP、P、O(n^2) 等概念一樣,Transformer或Mamba屬于哪里呢?
而在田淵棟發(fā)帖的第二天,谷歌論文主要作者馬騰宇也上線評(píng)論說:CoT的長度是可以超長的。
2層MLP中的神經(jīng)元數(shù)量呈指數(shù)級(jí),才能逼近幾乎任何函數(shù)。
田淵棟回復(fù)他說:對(duì)那些可能需要指數(shù)數(shù)量的門的問題,CoT的長度可以很長。
這和2層MLP情況是一致的,因?yàn)闊o論擬合任意函數(shù),都需要覆蓋高維空間中的所有角,這是最壞的情況。
然而,現(xiàn)實(shí)世界的問題,是否有如此良好/簡潔的表征呢?如果它們都像NC1一樣,屬于P問題,那么當(dāng)然可以通過構(gòu)建Transformer的權(quán)重來做到。
在最近一條X帖子中,田淵棟表示,自己的想法是,能夠找到更短的CoT,同時(shí)使用專家迭代(窮人的RL)來保持最佳結(jié)果。
從公開信息來看,他推斷o1也是在做類似的事情。至于初始化過程,可能是使用了大量高質(zhì)量的人類推理鏈。
人類是如何想出簡潔的CoT呢,這就不為人所知了。
趁此機(jī)會(huì),他還宣傳了一下自己團(tuán)隊(duì)Searchformer的論文。
論文地址:https://arxiv.org/abs/2402.14083
總之,雖然我們還不知道如何拓展2層神經(jīng)網(wǎng)絡(luò),但OpenAI似乎確信自己已經(jīng)掌握了拓展CoT的秘訣。
最新講座:揭示LLM推理的關(guān)鍵思想和局限
目前,這場空前熱烈的討論還在繼續(xù)。
而關(guān)于LLM推理,Denny Zhou最近在UC伯克利也進(jìn)行了一場類似主題的講座。
他表示,自己對(duì)AI的期待是可以像人類一樣從較少的示例中進(jìn)行學(xué)習(xí)。
但曾經(jīng)嘗試的種種機(jī)器學(xué)習(xí)方法之所以都不成功,是因?yàn)槟P腿笔Я艘环N重要能力——推理。
人類之所以能從較少的示例中學(xué)習(xí)到抽象的規(guī)律和原理,就是因?yàn)橥评砟芰?。正如愛因斯坦所說的,「Make things as simple as possible but not simpler」。(一切都應(yīng)該盡可能簡單,但不能過于簡單)
比如,對(duì)于下面這個(gè)問題:
對(duì)人類而言,這是一道小學(xué)水平的「找規(guī)律」。
但機(jī)器學(xué)習(xí)需要海量的標(biāo)注數(shù)據(jù)才能找出其中的規(guī)律。
而LLM的少樣本學(xué)習(xí)更是難以解決。
但如果在數(shù)據(jù)中加入「推理過程」,LLM就很容易有樣學(xué)樣,學(xué)習(xí)到少量樣本示例中展現(xiàn)出的規(guī)律,并給出正確答案。
通過這個(gè)簡單的例子,Denny Zhou指出,關(guān)鍵想法是在數(shù)據(jù)中包含中間步驟,或者是解釋原理(rationale),同時(shí)讓模型寫出推導(dǎo)過程。
這就是使用CoT背后的邏輯和直覺。
「中間步驟」,為何如此重要
DeepMind的研究者們,率先使用自然語言原理去解決數(shù)學(xué)問題。
關(guān)鍵就在于從頭開始訓(xùn)練了一個(gè)序列到序列模型,從而通過一系列小步驟得出最終答案。
繼這項(xiàng)工作后,OpenAI的研究者們建立了一個(gè)更大的數(shù)學(xué)單詞問題數(shù)據(jù)集(GSM8K),其中包含自然語言基本原理,并利用它對(duì)GPT-3進(jìn)行了微調(diào)。
這樣,語言模型的中間計(jì)算步驟,就被展示了出來。
o1模型的奠基性貢獻(xiàn)者之一Jason Wei在谷歌大腦工作時(shí)曾和Denny Zhou發(fā)表了一篇論文,指出CoT提示可以引導(dǎo)出LLM的推理能力。
Denny Zhou甚至更直白地指出樣本「中間步驟」的重要性:無論是訓(xùn)練、微調(diào)還是提示,都需要給出中間步驟,才能讓LLM在響應(yīng)中也包含中間步驟。
實(shí)際上,這也是Denny Zhou、馬騰宇最近論文的核心觀點(diǎn)。如果能生成足夠長的中間推理步驟,常數(shù)深度的Transformer模型也能解決任何串行問題。
CoT并不是一切
但是,這也并不意味著CoT可以包打一切,解決LLM推理的所有缺陷。
比如,模型很容易被無關(guān)的上下文干擾,這一點(diǎn)和人類思維也很類似。
實(shí)驗(yàn)中發(fā)現(xiàn),在GSM8K數(shù)據(jù)集中添加無關(guān)上下文,可以導(dǎo)致模型性能出現(xiàn)高達(dá)20+百分點(diǎn)的損失。
此外,LLM的自我糾正能力也并不健全。
雖然有些模型在反思后可以成功修改錯(cuò)誤答案,但也存在另一種風(fēng)險(xiǎn)——可能反而把正確答案改錯(cuò)。
那么,LLM的下一步應(yīng)該往何處去?
Denny Zhou指出,雖然我們已經(jīng)知道了模型推理有哪些缺陷和不足,但最重要的還是定義好問題,再從第一性原理出發(fā)去解決。
此處,再引用一句愛因斯坦的話:「如果有1小時(shí)用來拯救星球,我會(huì)花59分鐘來定義問題,然后用1分鐘解決它?!?/span>
一些質(zhì)疑
雖然Denny Zhou的演講內(nèi)容相當(dāng)詳實(shí),但「CoT實(shí)現(xiàn)推理無極限」的論斷確實(shí)相當(dāng)大膽,因此也引起了網(wǎng)友的反駁。
比如有人指出,前提中所謂的「無限多token」只是在理論上可行,在實(shí)踐中未必如此。
token數(shù)量很有可能隨輸入增加呈現(xiàn)指數(shù)增長,問題變得越來越復(fù)雜時(shí),token數(shù)量逼近無限,你要怎么處理?
而且,LLM推理和人類還存在本質(zhì)差異。AI目前只能進(jìn)行暴力搜索(brute-force),但人類有所謂的「啟發(fā)式」思考,「直覺」讓我們能將數(shù)百萬種可能性快速縮減至幾種可行的解決方案。
如果想達(dá)到AGI,AI系統(tǒng)就需要模擬出這種高效的問題解決路徑。