大模型開始進入收益遞減的時代？

發布于 2024-5-21 13:47

瀏覽

0收藏

目前人們好像已在接受這樣的觀點：“大語言模型(LLMs)正在以指數速度進步。” 就在幾天前，賓州大學沃登商學院（The Wharton School) 的Ethan Mollick教授在一篇廣受關注的博客文章中聲稱，“目前對 LLMs 的能力評估顯示，LLM的能力每5到14個月翻一番”。

大模型開始進入收益遞減的時代？-AI.x社區

實際上Mollick教授引用的研究并未顯示他所聲稱的內容。如果你仔細閱讀，它沒有提到能力的提高。它顯示的是模型在達到給定性能水平所需的計算資源變得更有效率，“達到給定性能水平所需的計算量大約每8個月減半，95%的置信區間為5到14個月。”但是，（a）過去的表現并不總是能預測未來的表現，且（b）研究中的大部分數據都比較陳舊，沒有今年的數據。

關鍵是——我們都知道GPT-3比GPT-2大幅提升。我們也都知道GPT-4（13個月前發布）比GPT-3大幅提升。但是從那以后發生了什么？

我可以被說服，在2020-2023年的某些月份里能力確實翻倍了，但我完全看不到過去13個月中有這樣的情況。

相反，我看到的諸多跡象表明我們已經進入了收益遞減的時期。

讓我真正開始思考這一切的是OpenAI幾天前發布的一張圖表，宣傳他們最新的模型GPT-4 Turbo。我一直懷疑這是他們嘗試但失敗的GPT-5。看起來不錯——進步了！但是仔細看。

大模型開始進入收益遞減的時代？-AI.x社區

實際上，這張圖表顯示了最近幾個月在一系列不同指標上的一些改進，大多數是適度的。但它也完全觸發了我的警覺感。

我立即不喜歡這張圖表的原因是它任意地顯示了兩個非常近期的模型，而沒有顯示之前的歷史數據。所以是的，在某些指標上確實有進展，但我們真正需要看到的是長期的增長。這讓我開始思考。并且繪圖。對于許多指標，我根本找不到GPT-2或GPT-3的任何數據，有時甚至對于GPT-4也是如此。（在一些新指標上，GPT-2和GPT-3的數據效果上都為零。）但對于一個稱為MMLU的常見基準，我能夠找到GPT-2、GPT-3和GPT-4的歷史數據（但沒有GPT 3.5）。

這是我找到的情況（y軸是百分比準確度）：

大模型開始進入收益遞減的時代？-AI.x社區

從GPT-2到GPT-3有巨大的躍升。從GPT-3到GPT-4也有巨大的躍升……但從GPT-4（13個月前）到GPT-4 Turbo（剛發布）則不太明顯。很難不將這個圖表視為收益遞減假設的初步證據。無論曾經有過多少翻倍，現在也許已經到了盡頭。

當然，這里有一個問題：當你接近圖表的頂部時，你會遇到統計學上稱之為“范圍限制”的問題。你不能在MMLU上從85分跳到115分；100%是可能的最高分。而且許多基準測試都很復雜且不完美。得分為100可能實際上是可疑的，因為這可能表明所討論的模型只是簡單地記住了數據。也許真正的實際上限是95%。

我的直覺是我們還沒有達到MMLU的真正上限，這是收益遞減的真實跡象。但好吧，讓我們再找另一個指標看看。

X網站上有人向我指出了《紐約時報》的Connections游戲。聰明的人可能能夠在任何給定的數據上獲得90%以上的得分，但目前的模型還沒有接近。所以，在這里，就沒有范圍限制的問題了。多虧了Lech Mazur，我能夠找到一系列歷史模型的數據，盡管沒有回溯到GPT-2或GPT-3。但足以讓我們對可能正在發生的情況有些了解：

大模型開始進入收益遞減的時代？-AI.x社區