SOTA大模型遇上加密數(shù)據(jù)評測:Qwen3未破10%,o1也栽了丨上海AI Lab等聯(lián)合研究
大語言模型遇上加密數(shù)據(jù),即使是最新Qwen3也直冒冷汗!
盡管當前的推理模型在各類基準測試中展現(xiàn)出卓越的性能,但在密碼學這一對邏輯嚴密性和細節(jié)精確度要求近乎苛刻的專業(yè)領域,模型的推理能力仍有待深入探索。
密碼學不僅需要模型具備高階數(shù)學運算能力和嚴密的邏輯推理鏈條,更要求其能夠精準識別復雜加密模式中的潛在規(guī)律;成功解密需要模型具有極強的綜合推理能力。
上海AI Lab等聯(lián)合推出的CipherBank評測,用海量真實隱私場景數(shù)據(jù)和多類型密碼算法,硬核挑戰(zhàn)SOTA大模型。
CipherBank的評測結果顯示,當前的大語言模型在密碼學解密任務上整體表現(xiàn)不佳,最優(yōu)模型準確率未能過半,絕大多數(shù)模型準確率不足20%,表明結構化和符號化推理仍是它們的顯著短板。
在CipherBank評測中,Claude-3.5-Sonnet和o1表現(xiàn)最佳,DeepSeek系列略優(yōu)于通用模型,而 GPT-4o、Gemini等模型表現(xiàn)平庸,Qwen2.5, Llama3.1, Llama3.3等開源模型表現(xiàn)較差,即使是最新發(fā)布的Qwen3系列模型表現(xiàn)也不盡人意,30B和32B的模型準確率均未超過10%;整體顯示當前大模型在解密推理任務上仍存在明顯短板。
CipherBank:專門用來考驗大模型解密能力的測試題庫
CipherBank是一個全面、真實、精妙的密碼學解密基準測試集。它不僅僅是隨機文本的加密,而是精心構建了貼近現(xiàn)實世界隱私敏感場景的明文數(shù)據(jù)。
數(shù)據(jù):涵蓋5大領域(如個人隱私、金融資產(chǎn))、14個子領域(如身份信息、銀行信息)、89個細粒度標簽,共262個獨特明文。這些數(shù)據(jù)反映了真實的加密需求。
算法:包含3大類(替換密碼、置換密碼、自定義密碼)、9種典型及創(chuàng)新加密算法,從經(jīng)典的Rot13、Vigenère到定制的DualAvgCode、ParityShift、WordShift等。設計了5個難度層級,從基礎到專家,全方位考驗模型的解密能力。
題庫:總共生成了2,358道 經(jīng)過嚴格驗證的解密題目。每一題,都是對LLM推理能力的嚴峻拷問!
用研究者的話說:CipherBank,就是要讓LLMs在沒有“場外提示”的情況下,純靠本事闖過重重“密室”。
SOTA 模型實測:集體“滑鐵盧”,最高分未過半
研究團隊邀請了當前AI界的18位“頂流”選手(包括GPT家族、DeepSeek系列、Gemini系列、Claude 3.5、o1系列等)進行了這場硬核PK。
評估采用 3-shot 設置。模型拿到的是幾個明文-密文示例,需要像一位真正的密碼分析師一樣,從這些例子中自主學習加密規(guī)則、推斷密鑰,最終才能解密全新的密文。這評估的是真正的推理能力,而不是簡單的“記憶”或“窮舉”。
集體“不及格”?:令人震驚的是,絕大多數(shù)SOTA模型得分慘淡,部分甚至接近零分。即使是表現(xiàn)最好的Claude-3.5和o1,準確率也未能突破50%。這說明,即使是古典密碼解密,對目前的LLMs來說依然是一個巨大的未被攻克的堡壘。
推理模型「略有優(yōu)勢」:推理優(yōu)化模型(DeepSeek-R1, o1)的平均表現(xiàn)確實優(yōu)于通用聊天模型,這再次印證了推理優(yōu)化在邏輯任務上的價值,但差距并沒有拉開到大家想象的那么大。
閉源模型「暫時領跑」:Claude-3.5以顯著優(yōu)勢領跑,在替換密碼、置換密碼上展現(xiàn)了非凡能力,o1緊隨其后。但DeepSeek-V3/R1等開源模型的進步也很亮眼,正在奮力追趕。
性能差異「驚人」:同類模型在解密任務中的表現(xiàn)差異較大,例如o1與QwQ-32B-Preview的準確率相差幾十倍。
除此之外,研究團隊還對全新發(fā)布的Qwen3 32B系列模型進行了測試,發(fā)現(xiàn)即使是最新發(fā)布的Qwen3模型,測試準確率依舊不足10%:
剝繭抽絲:大模型為何在解密上“犯難”?
為什么LLMs在解密上這么“掙扎”?研究團隊進一步做了細致分析:
怕長文本: 文本越長,模型越容易出錯!與人類解密不同,人類一旦成功找到解密方法之后,便能以近100%的成功率破解,而LLMs的“腦容量”在解密時會受到長度限制。
怕噪音干擾 :明文中加點兒錯別字或無關信息,模型性能“閃崩”!這暴露了模型在“猜測”而非“推理”——它們不是嚴格按規(guī)則解密,而是依賴文本的語義順暢度,一旦語義被破壞,就歇菜了。
怕數(shù)字轉換 :加密內(nèi)容里混入數(shù)字?難度瞬間飆升!LLMs在處理涉及數(shù)字的轉換規(guī)則時顯得尤為吃力。
“提示”依賴癥 :如果在Prompt里直接告訴模型是什么算法,推理模型表現(xiàn)會大幅提升,而通用模型提升有限。這說明推理模型在“有向”推理時更有效,但自主從示例中發(fā)現(xiàn)規(guī)則的能力還不足。
錯誤分析:模型到底錯在哪兒?
研究團隊對模型的錯誤輸出進行了細致分類(遺漏/插入、姓名解密錯誤、語義推斷、重組、推理失敗等),將模型的錯誤分布總結為下圖(左圖為Chat model錯誤分布,右圖為Reasoning model的錯誤分布),并發(fā)現(xiàn)了一些有意思的現(xiàn)象:
推理模型「想太多」:有時在簡單的算法(比如Reverse)上,推理模型反而會“過度分析”,繞了遠路最終出錯。
對話模型「愛腦補」:更傾向于生成語義通順但并未完全符合解密規(guī)則的文本,容易出現(xiàn)“遺漏/插入”或“重組”錯誤,像是在“自由發(fā)揮”。
「姓名識別」的通病 :處理姓名等專有名詞的解密時,模型們普遍容易出錯,這可能是預訓練數(shù)據(jù)帶來的某種“記憶”干擾。
未來展望
那么,未來的 AI 應該往哪個方向努力,才能征服密碼解密這座“高山”呢?CipherBank的結果為人們指明了幾個關鍵的突破口:
擺脫「過度語義依賴」:讓模型訓練出純粹的、抽象的符號和結構化推理能力,不再僅僅依賴表面文本的“猜意思”或進行“語義補全”,尤其在處理不具備強語義規(guī)律的加密數(shù)據(jù)時。
增強「模式學習與泛化」:提升模型從少量示例中精準對比分析、高效提取隱含加密規(guī)則和密鑰的能力,并能將這些規(guī)則穩(wěn)健地泛化應用于各種情況,包括處理混合文本(如數(shù)字與字母)以及對抗輕微的噪音干擾。
優(yōu)化「推理執(zhí)行的穩(wěn)定性」:改進模型的思考流程,避免在看似簡單的任務上“過度思考”或陷入不必要的遞歸修正,確保推理過程更加直接、高效和穩(wěn)定,能夠精確無誤地執(zhí)行推斷出的解密步驟。
未來,大語言模型有望在密碼學領域取得更加顯著的進展。
項目主頁:https://cipherbankeva.github.io/
論文直達:https://arxiv.org/abs/2504.19093
測試數(shù)據(jù):https://huggingface.co/datasets/yu0226/CipherBank