讓GPT-4.1「頭皮發麻的考試」!OpenAI給大模型上強度,AI能贏嗎?
雕塑在大理石塊中已經完成,甚至在我開始工作之前就已經存在。
它就在那里,我只需要鑿去多余的材料。
——米開朗基羅
當被問及是如何創作出如此美麗的雕塑時,米開朗基羅說「雕塑已經存在,我只是需要鑿去多余的材料」。
當21世紀的一個AI模型去理解一個非常長的上下文時,冥冥之中與15世紀的雕塑家發生了共鳴。
一個「超長的上下文」就像米開朗基羅手里的大理石,AI必須鑿去無關信息以揭示其中的本質。
4月15日,OpenAI發布GPT4.1時,更多的人關注模型的能力以及各系列「奇怪的」命名規則。
圖片
如果再加上OpenAI最近發布的o3和o4-mini,以后操縱一個AI聊天界面估計不亞于開宇宙飛船。
除了新模型,OpenAI還公布了一個叫做MRCR的評測標準數據集,如果說以前檢測模型上下文能力的測試叫做「大海撈針」的話。
新的MRCR標準就是針對AI模型上下文能力的「奧運會」級別測評。
在信息海洋中「大海撈針」
「大海撈針」是翻譯過來的,原文叫做The Needle In a Haystack,最早還得追溯到GPT-4那個「年代」(感嘆下,AI發展的如此快,上一個里程碑時刻都要用年代來感知了,其實也就是2023年的事情)
最早是Greg Kamradt為了測試GPT-4的上下文能力提出的。
圖片
「The needle in a haystack」就是指將特定的、想要檢索的信息(needle)嵌入到超長且復雜的文本(haystack)中。
AI能否從這塊大理石(haystack)中鑿出美麗的雕像?
圖片
Greg Kamradt評估了GPT-4的能力。當輸入tokens大于100k,這些信息「針」被嵌入在文檔的百分之十至百分之五十之間時,GPT-4的大海撈針的能力開始顯著下降。
但在GPT4.1中,這個能力得到了「巨大」的提升,有多大?
圖片
上圖是OpenAI發布GPT4.1時同時公布的信息,展示了 GPT-4.1在上下文窗口中不同位置檢索一小段隱藏信息(「針」)的能力。
橫軸是Input tokens從10K一直到1M,縱軸是「針」的位置。
測試結果全部藍色,全部成功!
GPT-4.1能夠在所有位置和所有上下文長度下一致且準確地檢索到針,上下文長度一直到100萬個tokens。
什么意思呢?就是說GPT4.1能夠有效地提取與手頭任務相關的任何細節,無論這些細節在輸入中的位置如何。
看來現在的大模型處理2年前的「大海撈針」已經毫無壓力了。
并且PGT4.1的上下文窗口來到了「史詩級」的10M,1000萬tokens!是上述測試時的10倍。
用OpenAI的話,這個長度的上下文可以塞得下8個完整的React代碼庫。
圖片
那么,模型真的可以處理這么長的上下文嗎?
2年前的「大海撈針」標準還能有效測試如今的大模型嗎?
終極「躲貓貓」游戲,OpenAI MRCR登場!
標準的「大海撈針」測試雖然有用,但對于如今的大模型可能有點太「溫柔」了。
如果想要找的不止一根針呢?如果這些針長得一模一樣呢?如果要求找的不是特定的一根針,而是特定順序的幾根呢?
歡迎來到OpenAI MRCR的世界——一場為頂級AI大模型設計的終極「躲貓貓」游戲!
OpenAI MRCR增加了任務難度,MRCR(Multi-round co-reference resolution,多輪共指消解)是一個用于評估大語言模型區分隱藏在長上下文中的多個目標能力的數據集。
MRCR數據集把「大海撈針」的難度提升到了一個全新的境界,來看一下OpenAI提供的例子。
圖片
任務是給定了一段用戶和模型之間的長對話,比如先寫一首關于「tapirs」的詩,再寫一首關于「rocks」的詩,然后再寫一首關于「tapirs」的詩,以此類推。。。來增加這個上下文的難度。
最后的要求是:將「aYooSG8CQg」加到第二首關于「tapirs」的詩前面。
這個測試非常具有挑戰性,因為:
- 刺激項(針:也就是aYooSG8CQg)與干擾項(haystack:也就是長對話上下文)來自相同的分布。
- 所有AI助手的回答都是由gpt4o生成的,因此刺激項很容易與干擾項混淆。
- 模型必須區分刺激項之間的順序:比如模型能分別出關于tapirs的詩是第幾首。
- 刺激項數量越多,任務就越困難。
- 上下文越長,任務的難度也越大。
這個測試不僅對于GPT4.1,而且對于其他推理模型也相當困難。
MRCR不僅僅是測試模型能不能「找到」信息,更是考驗它在極端干擾下,能否精確地、魯棒地、有區別地定位到目標信息。
這就像在極其嘈雜的環境中,讓你準確聽出并復述某個特定人的特定一句話。
OpenAI也給出了在不同難度下(不同的針數),模型的準確性隨著上下文的增大,迅速的降低。
比如2個針的情況下,在GPT4.1、GPT4.1-mini以及GPT4.1 nano的準確性同步降低。
圖片
在4針和8針的情況下,當上下文足夠大的時候,GPT4.1 mini的準確性甚至稍微超過了GPT4.1。
圖片
在這個「嚴苛」的測試中,也許并不是模型越大越好。
圖片
AI 的「考試」永無止境
從GPT3.5的簡單的問答到DeepSeek-R1、OpenAI-o1的復雜的推理,從基礎的語言理解到極限的「大海撈針」再到更嚴格的MRCR,AI 大模型的基準測試就像一場永無止境的「考試」。
像OenAI-MRCR這樣的創新性基準,不斷地為這些聰明的AI模型設置新的、更難的挑戰。
這些測試基準本身不是目的,它們的真正價值在于:
- 揭示能力邊界: 讓我們更清楚地認識到當前 AI 的能力極限在哪里。
- 驅動技術進步: 激勵研究者們開發出更強大、更可靠、更能應對真實世界復雜性的 AI 模型。
- 促進審慎應用: 了解模型的強項和弱點,有助于我們更負責任、更有效地使用這項強大的技術。
GPT4.1已經可以從10M上下文中找到關鍵的信息,未來AI大模型的能力上限在哪里呢?
AI的未來充滿了無限可能,而這些嚴苛的基準測試,正是照亮前行道路,指引AI模型穩步向前的「燈塔」。
參考資料: