大模型開始進入收益遞減的時代?
目前人們好像已在接受這樣的觀點:“大語言模型(LLMs)正在以指數速度進步。” 就在幾天前,賓州大學沃登商學院 (The Wharton School) 的Ethan Mollick教授在一篇廣受關注的博客文章中聲稱,“目前對 LLMs 的能力評估顯示,LLM的能力每5到14個月翻一番”。
實際上Mollick教授引用的研究并未顯示他所聲稱的內容。如果你仔細閱讀,它沒有提到能力的提高。它顯示的是模型在達到給定性能水平所需的計算資源變得更有效率,“達到給定性能水平所需的計算量大約每8個月減半,95%的置信區間為5到14個月。”但是,(a)過去的表現并不總是能預測未來的表現,且(b)研究中的大部分數據都比較陳舊,沒有今年的數據。
關鍵是——我們都知道GPT-3比GPT-2大幅提升。我們也都知道GPT-4(13個月前發布)比GPT-3大幅提升。但是從那以后發生了什么?
我可以被說服,在2020-2023年的某些月份里能力確實翻倍了,但我完全看不到過去13個月中有這樣的情況。
相反,我看到的諸多跡象表明我們已經進入了收益遞減的時期。
讓我真正開始思考這一切的是OpenAI幾天前發布的一張圖表,宣傳他們最新的模型GPT-4 Turbo。我一直懷疑這是他們嘗試但失敗的GPT-5。看起來不錯——進步了!但是仔細看。
實際上,這張圖表顯示了最近幾個月在一系列不同指標上的一些改進,大多數是適度的。但它也完全觸發了我的警覺感。
我立即不喜歡這張圖表的原因是它任意地顯示了兩個非常近期的模型,而沒有顯示之前的歷史數據。所以是的,在某些指標上確實有進展,但我們真正需要看到的是長期的增長。這讓我開始思考。并且繪圖。對于許多指標,我根本找不到GPT-2或GPT-3的任何數據,有時甚至對于GPT-4也是如此。(在一些新指標上,GPT-2和GPT-3的數據效果上都為零。)但對于一個稱為MMLU的常見基準,我能夠找到GPT-2、GPT-3和GPT-4的歷史數據(但沒有GPT 3.5)。
這是我找到的情況(y軸是百分比準確度):
從GPT-2到GPT-3有巨大的躍升。從GPT-3到GPT-4也有巨大的躍升……但從GPT-4(13個月前)到GPT-4 Turbo(剛發布)則不太明顯。很難不將這個圖表視為收益遞減假設的初步證據。無論曾經有過多少翻倍,現在也許已經到了盡頭。
當然,這里有一個問題:當你接近圖表的頂部時,你會遇到統計學上稱之為“范圍限制”的問題。你不能在MMLU上從85分跳到115分;100%是可能的最高分。而且許多基準測試都很復雜且不完美。得分為100可能實際上是可疑的,因為這可能表明所討論的模型只是簡單地記住了數據。也許真正的實際上限是95%。
我的直覺是我們還沒有達到MMLU的真正上限,這是收益遞減的真實跡象。但好吧,讓我們再找另一個指標看看。
X網站上有人向我指出了《紐約時報》的Connections游戲。聰明的人可能能夠在任何給定的數據上獲得90%以上的得分,但目前的模型還沒有接近。所以,在這里,就沒有范圍限制的問題了。多虧了Lech Mazur,我能夠找到一系列歷史模型的數據,盡管沒有回溯到GPT-2或GPT-3。但足以讓我們對可能正在發生的情況有些了解:
從GPT 3.5 Turbo到4有很大的飛躍,但(再次)從GPT-4到兩個不同版本的GPT-4 Turbo只有適度的進步。范圍限制并不是問題,但我們再次看到了收益遞減的跡象。
如果我繪制的兩張圖表有一點正確,那么Mollick所聲稱的“大型語言模型改進速度顯示能力每5到14個月翻一番”的說法已經不再成立。
我在2022年曾警告過的墻壁,現在可能終于快要來臨了。
再從另一個角度看,我剛看到的這張圖表:自GPT-4發布以來,多個模型在GPT-4水平性能上的巨大收斂,然而并沒有明顯領先的模型。
那么質性數據呢?在很多方面,質性數據看起來都是一樣的。一個思考的方式是詢問在2022年我警告過的任何問題(比如幻覺和愚蠢的錯誤)是否已經解決了。
我認為公平地說,它們沒有。本周發布的GPT-Turbo仍然會產生一些讓人咂舌的問題,就像Phil Libin剛剛發來的這個對話一樣:
本周我讀到的最引人注目的事情之一是在《信息》(The Information)上。消息已經傳開,而問題顯然并沒有得到解決:
?
另一種思考這個問題的方式(見上面的第三張圖)是,大約有5到7個最近的模型與GPT-4持平,但沒有一個明顯地領先。
當然,單純在基準測試上取得進步并不足以說明問題;很少有基準測試能夠捕捉到現實世界的復雜性。即使LLMs在所有現有的基準測試中都達到了最高水平,我們可能仍然有很長的路要走。
如果我們真的已經從快速進展轉向了收益遞減的制度,而幻覺和愚蠢的錯誤仍然存在,那么LLMs可能永遠不會準備好投入實際應用。
相反,正如我在八月份所警告的那樣,我們很可能會迎來一場糾正。在最極端的情況下,OpenAI的860億美元估值在事后可能會被視為人工智能的WeWork時刻。
在最近幾周,Inflection AI基本上關閉了業務,Stability AI陷入了困境,以LLM為基礎的自動駕駛車輛公司Ghost關閉了業務,一個YouTube上的軟件工程師提出了關于備受炒作的AI編碼系統Devin的相當嚴重的問題。
如果對GenAI的熱情消退,市場估值暴跌,人工智能不會消失,LLMs也不會消失;它們仍然會作為統計近似的工具存在。
但這個位置可能會更小;完全有可能LLMs本身永遠無法達到去年的瘋狂期望。
可靠、值得信賴的人工智能肯定是可以實現的,但我們可能需要重新審視問題來實現這一點。
本文轉載自 ??MoPaaS魔泊云??,作者: Gary Marcus
