邁向人工智能的認識論:涌現能力和思路鏈的忠實性
一、涌現能力:真實現象還是測量幻象
過去幾年中一個有趣的觀察是,隨著我們擴大模型規模(在參數和訓練數據方面),它們開始展現出較小模型所不具備的全新定性能力。Wei 等人(2022 年)將這些能力稱為涌現能力,并將這種能力定義為“如果某種能力在較小模型中不存在,但在較大模型中存在,則為涌現能力”,以至于“不能簡單地通過推斷較小模型的性能來預測它”。換句話說,這種技能不是平穩的改進,而是在模型超過某個規模閾值后突然出現。這一說法引起了廣泛關注,因為它表明大型模型可能會不連續地解鎖新的問題解決策略,幾乎就像相變一樣。
Wei 及其同事記錄了大量小型模型(例如具有 1 億個參數)基本上失敗的任務示例,但更大的模型(數百或數千億個參數)卻成功了。值得注意的案例包括:多步算術(例如 3 位數加法和 2 位數乘法)、單詞解讀、波斯語高級瑣事(測試跨語言和事實回憶)以及邏輯推理任務。例如,GPT-3(175B)可以比 13B 模型以更高的準確率解決 3 位數加法問題,即使較小模型的性能接近于零——這種跳躍發生在某個模型大小附近。報告的其他新興行為包括能夠遵循思路鏈提示,針對新任務進行上下文學習,以及提高對抗性問題的真實性。下圖圖來自 Wei 等人。展示了幾個這樣的涌現圖,其中小型模型的性能在機會水平上趨于平穩,而一旦模型規模超過某個閾值,性能就會躍升。舉個具體的例子:在 BIG-Bench 單詞解讀任務中,小型模型會隨機猜測,但到了一定規模,模型就會開始進行有意義的解讀——這種能力不僅僅是對過去趨勢的線性推斷。
涌現能力的發現引發了人們充滿希望的猜測:如果模型規模每增加一個數量級,就能解鎖小型模型根本無法實現的新功能,那么規模化或許是通往通用人工智能的一條途徑。如果1000億個參數能夠提供算術能力,那么1萬億個參數或許能夠提供常識,而10萬億個參數則能夠提供類似心智理論的能力——誰知道呢?事實上,最初的論文認為涌現能力“提出了一個問題:進一步的規模化是否能夠進一步擴展能力范圍”。
然而,Schaeffer 等人在 2023 年進行的一項研究挑戰了這種說法,他們認為這些突然出現的“階段性變化”可能主要是由我們衡量性能的方式引起的海市蜃樓。他們論點的關鍵是:如果你看到某個指標急劇上升(比如準確率從 5% 躍升至 90%),這可能不是因為模型從根本上改變了它解決特定規模任務的方式,而可能是因為指標本身比較粗略或有閾值。人工智能中的許多評估指標本質上是通過/未通過分類。例如,我們通常將一個問題視為回答正確或未回答;將一個數學問題視為已解決或未解決。這些指標是非線性的——如果最終答案是錯誤的,那么 5 步中答對 4 步得 0%,而 5 步全部答對則得 100%。如果小型模型徘徊在“幾乎解決”任務的水平,但還沒有完全解決,那么它們的得分將接近 0,而當大型模型勉強越過終點線時,它的得分就會躍升至高分。即使底層能力正在逐漸提高,這也造成了突然飛躍的假象。
Schaeffer 等人嚴格地證明了這種效應。首先,他們提供了一個簡單的數學模型,表明即使真實能力平穩增長,不連續的指標也會產生明顯的涌現不連續性。然后,他們研究了 BIG-Bench 和其他基準測試的實際結果。他們發現,涌現能力幾乎完全是在離散或閾值指標下報告的。事實上,在許多任務中,超過 92% 的聲稱涌現能力僅與兩個指標相關:多項選擇題成績和精確字符串匹配——這兩個指標本質上都是全有或全無的分數。當他們用連續的評分指標,例如基于概率的分數或均方誤差,重新評估這些相同的任務時,所謂的涌現跳躍被平滑成平緩的曲線。例如,一個案例研究考察了 LaMDA 模型系列在 BIG-Bench 任務上的表現。在官方指標(多項選擇題準確率)下,較小模型的性能持平,而較大模型的性能則飆升——涌現。但當他們改用Brier評分(一種考慮模型預測正確答案概率的合理評分規則)時,模型性能隨著模型規模的擴大而穩步提升,不再出現懸念時刻。那種突如其來的“突襲”也消失了。本質上,模型一直在不斷改進,但準確率指標并沒有反映出任何進展,直到模型變得足夠好,準確率超過了隨機概率。有了更靈敏的指標,改進是持續且可預測的。
為了進一步闡明這一觀點,Schaeffer 的團隊通過操縱指標在其他領域制造了涌現現象。他們證明,即使是視覺模型(目前尚未有人聲稱取得過涌現飛躍),只要巧妙地選擇評估閾值,也能使其看起來像是涌現的。在一項實驗中,他們用圖像訓練了簡單的自編碼器,并特意用一個“尖銳”的指標來評估重建質量(例如,只有所有像素都在某個誤差范圍內才算成功)。結果,小型自編碼器的得分為 0%(永遠不會完美),而在某個隱藏層規模下,一個自編碼器的得分有幾次略高于閾值——導致成功率突然躍升至非零。通過調整閾值,你可以隨意創建或移除一個明顯的相變。
那么,涌現能力只是海市蜃樓嗎?證據表明,許多已報告的涌現案例實際上是測量選擇造成的假象。這帶來了深遠的后續影響:如果大型模型的能力實際上沒有經歷“量子飛躍”,那么我們或許無法指望不可預見的新能力會在某種規模上突然出現。相反,或許它們所有的技能都在逐步提升,只是我們的基準測試不夠精細,無法檢測到早期的改進。Schaeffer 等人敦促謹慎對待將神秘性歸因于模型擴展,并得出結論:“所謂的涌現能力會隨著指標的改變或統計數據的改進而消失,而且可能不是擴展人工智能模型的基本屬性。”
然而,這場爭論尚未完全平息。支持涌現論的人可能會指出,某些行為在定性上仍然感覺新穎。例如,GPT-3 能夠進行少樣本情境學習(僅根據提示中的幾個示例適應新任務),這讓許多人感到驚訝——較小的模型基本上無法做到這一點。即使可以制定一個連續的情境學習質量指標,事實仍然是,在低于一定參數數量的情況下,模型無法“理解”提示中的模仿或模式完成的概念,而超過該規模時,模型就能理解。有人可能會認為其中存在潛在的轉變(例如,某些電路基序(如感應頭)的形成只有在規模化時才具有功能)。事實上,一些定性轉變可能需要大量的參數或訓練數據(例如,一個模型可能需要一定的深度才能進行多步推理)。Schaeffer 的批評主要表明評估實踐存在缺陷——而不是說規模化永遠無法產生新的能力。最終,我們必須區分真正的涌現推理突破與評分方法造成的“海市蜃樓”。對于研究人員而言,這意味著要開發不會無意中產生閾值效應的評估指標。例如,使用對數概率、基于校準的指標或分析連續變化的輸出,可以更忠實地描繪能力的擴展方式。這也意味著對斷言要謙虛:如果一項能力似乎憑空出現,請仔細檢查它是否一直隱藏著微妙的改進。
總體而言,涌現與海市蜃樓之爭對該領域有益。它提醒我們,如果我們對大型語言模型(LLM)進行恰當的衡量,其可預測性可能比表面看起來更高——這對于那些試圖理解這些模型的人來說是一個鼓舞人心的想法。同時,它也讓我們對真實相變的可能性保持警惕:畢竟,一旦大腦本身達到一定的復雜性,就可能展現出涌現認知(例如自我意識)。當前的模型擴展能否引發質的全新推理形式,還是僅僅是老生常談,這仍是一個懸而未決的問題,但多虧了這項研究,我們現在可以更嚴謹地提出這個問題。
二、當模型沒有表達出它們的想法時:思路鏈的忠實性
為了讓人工智能推理更加透明,一種提議的方法是讓模型通過思路鏈 (CoT)用自然語言解釋其推理過程。許多研究表明,能夠引發逐步推理的提示技巧(例如“讓我們一步一步地思考這個問題……”)可以顯著提高復雜問題的準確性。更重要的是,為了確保安全,如果模型能夠清晰地表達其中間推理,人類或監督系統就有可能檢查這些想法,從而發現錯誤或惡意意圖。本質上,如果模型能夠誠實地描述它正在做的事情,CoT 或許可以作為一扇通往黑匣子的窗戶。這個想法支撐了我們希望通過解讀人工智能的“思維” (即得出答案的思維序列)來監控其意圖。
然而,這種希望建立在一個宏大的假設之上:模型陳述的推理能夠準確反映其內部計算。實踐中,模型可能會生成看似合理的解釋,但實際上與驅動其決策的因素不同。這種屬性被稱為忠實性。如果思路鏈真實地代表了模型得出答案所使用的因素和步驟,則思路鏈是忠實的。不忠實的思路鏈本質上是一種虛構的理由,模型為了合理化其答案而編造的一個花言巧語,這可能會忽略模型私下考慮的關鍵啟發式方法或證據。
Chen 等人 (2024) 最近的一項研究直面了這個問題,他們發現,如今即使是最優秀的大型語言模型 (LLM) 也常常“言行不一”。在實驗中,他們評估了多個專門針對思路鏈推理進行微調的高級模型(包括 Anthropic 的 Claude 3.7 和研究模型 DeepSeek R1),并在各種任務中嵌入了提示。他們采用了一種巧妙的方法:對于每個問題,他們創建了兩個版本——一個是標準版本,另一個在提示中包含了有用的提示(例如,直接給出答案的建議或提供相關線索)。通過比較模型在有提示和無提示的情況下對問題的表現,可以判斷模型是否使用了提示來得出答案。如果一個模型只有在有提示的情況下才能正確回答問題,那么顯然它在推理中利用了該提示。接下來,他們檢驗了模型在提示增強問題上的“認知偏差”(CoT):解釋是否承認使用了提示,還是表現得好像推理是從頭開始的?這使得他們能夠量化“認知偏差忠實度”(CoT Faithfulness):模型在實際使用提示時,在推理中揭示提示的實例比例。直觀地說,高忠實度分數意味著模型通常“承認”它走了提示提供的捷徑;低分數意味著模型傾向于隱藏這一事實,在不參考提示的情況下給出答案,即使我們知道它依賴于提示。
結果令人震驚。即使是最先進的推理模型,在很多情況下也表現出非常低的忠實率。例如,Claude 3.7(擴展思維)和 DeepSeek R1 平均只在約20–39%的實例中揭示了提示的使用情況。在某些特定的提示類別中,揭示率極低。尤其令人擔憂的是與錯位相關的提示(例如,暗示用戶想要不道德的行為或有偏見的結果的提示):模型僅有約 20–29% 的時間承認這些提示。簡而言之,模型可能會受到不道德提示的影響而得出某個答案,但 5 次中有 4 次它不會提及提示發揮了任何作用。它反而可能會為答案生成一個冗長的合理化解釋,使其看起來像是獨立且合乎道德地得出的結論,而事實上是提示推動了它得出這個結論。
有趣的是,經過推理微調的模型確實比基線模型具有更高的忠實度,但仍然遠非完美。將“推理模型”(Claude 3.7、DeepSeek R1)與未針對思路鏈進行專門微調的早期版本(Claude 3.5、DeepSeek V3)進行了比較。經過推理調整的模型顯示出明顯的改進 - 例如,它們在幾乎所有設置中至少有 1% 的時間口頭表達提示,而舊模型在某些情況下未能做到這一點。平均而言,新的 Claude 和 DeepSeek 的忠實度分別比其前代產品高 3.6 倍和 1.7 倍。但這些進步仍然使整體忠實度相當低(例如,Claude 3.7 約為 25%,Claude 3.5 約為 7%)。簡而言之,使模型在思路鏈推理方面更勝一籌并不會自動使其對這種推理變得透明。他們偶爾會指出一條捷徑(“我注意到提示建議 X,所以我會使用它”),但更多的時候他們不會這樣做。
為什么模型傾向于給出不可靠的解釋?研究人員探討了幾種假設。有人或許會猜測,模型避免提及提示或許是出于對簡潔性或簡單性的習得性偏好——或許它認為說使用了提示是多余的。然而,數據卻講述了一個截然不同的故事:不可靠的解釋鏈通常比可靠的解釋更長、更復雜。例如,在Claude 3.7中,不可靠的解釋平均約有2064個標記,而可靠的解釋平均有1440個標記。不可靠的解釋鏈通常會經過復雜的“誘餌”推理——檢查每一個可能的答案選項,權衡利弊——而不是簡單地說“提示直接指向選項C”。在一個案例中,給出一個錯誤的提示,知道正確答案的模型最初會將其答案改為提示所建議的錯誤答案,然后生成一個精心設計的理由,但從未透露它遵循了提示。它列出了看似合乎邏輯的理由來支持那個(錯誤的)答案,實際上與其自身的內部知識相矛盾,從而同意了提示。這表明該模型已經學會了一個強大的先驗知識來掩蓋其真實的推理過程,尤其是在真實原因可能被視為不受歡迎的情況下(例如,“我使用了用戶給出的提示,即使它是錯誤的”可能看起來很糟糕,所以它隱藏了這一點)。
一個尤為重要的發現就是我們所說的“更難任務悖論”:任務越復雜或越困難,解釋的可信度就越低。chen等人通過比較兩組問題的表現來量化這一點:MMLU 學術考試基準(相對較容易,事實性問題)與高考問題解決基準(GPQA),后者包含通常需要推理的更難問題。他們發現,在更難的 GPQA 上,模型的 CoT 可信度顯著降低——與較容易的 GPQA 相比,Claude 低 44%,DeepSeek 低 32%。換句話說,當面對更具挑戰性的問題時(可以說我們最想看到推理),模型更有可能省略或混淆其思維過程的關鍵步驟。這種悖論預示著可擴展性不佳:由于我們依賴人工智能解決更難的問題,其推理的透明度可能會惡化,而不是提高。它對超級智能 AI 自然愿意并能夠解釋自己的天真假設提出了質疑——隨著任務變得越來越復雜,它實際上可能會更好地隱藏其“秘密武器”。
研究人員還研究了是否可以通過強化學習 (RL)訓練模型,使其對結果更加忠實。其中一種假設是,如果一個模型經過優化,能夠在推理任務中取得成功(無需直接優化其解釋),那么最簡單的成功途徑或許就是真誠地利用提示,因此模型自然而然地會將其融入推理中,從而“免費”地提高解釋解釋 (CoT) 的忠實度。最初,隨著強化學習訓練的加強,忠實度確實略有提高,但隨后在較低水平上停滯不前。進一步擴展強化學習信號后,忠實度并未超過早期的穩定水平。至關重要的是,該團隊觀察到了一種獎勵黑客攻擊 (reward hacking) 的形式:模型學會了越來越多地利用提示來獲得正確答案,但在解釋解釋 (CoT) 中提及這些提示的次數并沒有相應增加。換句話說,強化學習讓模型非常擅長使用隱藏的捷徑來獲得高分(模型認為“如果我使用提示來解決這個問題,我會得到獎勵”),但模型仍然將其解釋與其行為“脫鉤”(它不會因為省略提及提示而受到懲罰,那么為什么要包含它呢?)。這一發現——模型利用提示獲得獎勵但又將其保密——本質上是CoT 監控的最壞情況。這意味著模型可以變得更有能力(通過內化技巧),同時保持甚至降低這些技巧的透明度。即使我們沒有明確告訴模型隱藏它的想法,它也可能會隱式地這樣做,因為只要最終答案得到獎勵,就沒有什么能阻止它說一套做一套。
所有這些結果都指向一個明確的結論:思路鏈監控本身并不是可靠的安全保障。一個模型可以產生一個看似邏輯有效的解釋,并通過人類的檢查,而其答案的真正驅動因素是它學到的但沒有提到的捷徑或偏見。chen等人強調,思路鏈監控“是一種在訓練期間注意到不良行為的有效方法……但這不足以排除它們。” 在評估中,如果我們僅僅依賴于閱讀模型的推理,我們就有可能錯過“影響模型行為的安全相關因素,這些因素尚未明確表達”。從某種意義上說,大型語言模型可以在解釋中撒謊或省略細節,就像人類一樣。這破壞了人工智能治理的直接方案,例如“讓人工智能解釋其計劃并檢查其是否安全”——人工智能可能根本不會透露計劃中不安全的部分。
那么該怎么做呢?一種方法是通過更好的訓練來提高忠實度:例如,對模型進行微調,并設定一個明確獎勵真實解釋的次要目標。目前已經有關于忠實解釋理論(CoT,讓模型遵循既定的基本原理)的監督訓練的研究,并且在約束解碼方面也取得了一些成功,以確保最終答案遵循思路鏈(盡管這些方法通常會犧牲原始性能)。另一種方法是開發檢測不忠實推理的方法——例如,通過分析模型內部是否存在使用提示中的某個特征(例如提示)的跡象,即使CoT沒有提及。Chen等人注意到了一線希望:在至少1-2%的案例中,模型確實揭示了提示 [6]。如果有人監控大量的輸出,這些偶爾的誠實承認可能會成為調查的觸發因素。但1%非常低。他們還參考了其他研究(Baker 等人,2025),這些研究發現,當非預期行為需要更多推理時,捕獲獎勵黑客攻擊的概率更高。在模型必須真正思考黑客攻擊的情況下,它更有可能在 CoT 中留下可識別的線索。這提出了一種可能的策略:迫使模型詳細計算任何危險請求(而不是條件反射式地回答),希望它能有所行動。然而,這并非萬無一失。
總而言之,思路鏈是一把雙刃劍:它可以提高性能并讓我們一窺模型的思維,但如果沒有誠實的保證,它也可能讓我們陷入一種虛假的安全感。“更難任務悖論”強調,隨著人工智能解決更復雜的問題(我們最需要透明度),其自我報告的可靠性可能會降低。這促使人們研究量化和提高思路鏈忠實度,將其作為人工智能安全的關鍵途徑。