邁向人工智能的認(rèn)識論:窺探黑匣子的新方法
鑒于上述困難,研究人員正在多個方面進(jìn)行創(chuàng)新,以更好地理解和控制大型語言模型(LLM)的推理方式。總體而言,兩種互補(bǔ)的策略正在形成:
機(jī)械分析和歸因:分解模型的內(nèi)部計算(電路、神經(jīng)元、注意力頭),將特定的決策或步驟歸因于特定的組件。
行為評估和約束:設(shè)計評估指標(biāo)和訓(xùn)練框架,區(qū)分真正的推理和表面模式,并鼓勵模型在中間步驟中講真話。
一個有進(jìn)展的想法是將電路級可解釋性與思路鏈驗證相結(jié)合。例如,人們可以使用因果追蹤方法來查看模型的哪些部分與思路鏈的每個步驟相對應(yīng)地被激活,從而檢查所聲稱的推理步驟是否在產(chǎn)生答案的過程中發(fā)揮了因果作用。如果一個模型說:“因此,由于原因 X,選項 C 是正確的”,我們可以驗證與原因 X 相關(guān)的神經(jīng)元確實對選項 C 的對數(shù)有影響。Anthropic 的工作已經(jīng)展示了追蹤個體特征的可行性:他們設(shè)法識別出能夠檢測 Claude 是否遵循用戶提示的神經(jīng)元。通過觀察模型內(nèi)部的信息流,他們有效地標(biāo)記出一種“令人擔(dān)憂的機(jī)制”——模型在生成虛假推理路徑時傾向于使用提示。進(jìn)一步擴(kuò)展,我們可以想象一個自動化系統(tǒng),它實時監(jiān)控 LLM 的內(nèi)部激活狀態(tài),以便及時發(fā)現(xiàn)其是否存在不良行為或魯棒性不足的情況。事實上,Anthropic 提到,他們投資了模型內(nèi)部狀態(tài)的“實時監(jiān)控”,并將其作為安全流程的一部分。
另一項創(chuàng)新是開發(fā)更好的推理保真度指標(biāo)。涌現(xiàn)階段的討論強(qiáng)調(diào)了如何選擇正確的指標(biāo)來揭示持續(xù)的進(jìn)展,而不是突如其來的神奇跳躍。同樣,對于思路鏈,研究人員正在提出直接評估忠實度的指標(biāo)。例如,我們不再僅僅問“模型是否得到了正確答案?”,而是問“如果我們干預(yù)或刪除解釋中的某個特定步驟,答案會改變嗎?”。Anthropic 的團(tuán)隊以一種受控的方式做到了這一點:他們嘗試在思路鏈中提供誤導(dǎo)性的步驟,看看忠實的模型是否會標(biāo)記不一致性或更改其答案。另一種方法是一致性檢查:讓模型針對同一個問題生成多個不同的思路鏈(通過提示變異性),然后驗證所有思路鏈?zhǔn)欠穸贾赶蛲粋€答案(自洽性)。如果不是,那么模型可能是在猜測,或者推理并沒有確定性地引導(dǎo)答案——這表明思路鏈可能空洞無物,缺乏實質(zhì)內(nèi)容。
人們對使用輔助模型進(jìn)行自動化 CoT 評估的興趣也日益濃厚。可以訓(xùn)練一個輔助模型(或使用現(xiàn)有模型)來充當(dāng)推理驗證器。例如,給定一個思路鏈和一個答案,驗證器模型會判斷答案是否真正遵循推理。這類似于證明檢查。如果大型語言模型 (LLM) 正在進(jìn)行真正的推理,獨(dú)立的檢查人員應(yīng)該能夠判斷出來。AI 新聞中提到的一個相關(guān)概念是思考-求解-驗證 (TSV) 框架。在 TSV 中,模型會經(jīng)歷思考步驟(生成 CoT)、求解步驟(獲得答案),然后是驗證步驟,在此步驟中,模型本身或其他系統(tǒng)會驗證每個步驟的有效性和總體結(jié)論。這強(qiáng)制執(zhí)行了一種紀(jì)律:思路鏈不僅必須產(chǎn)生正確的答案,還必須經(jīng)得起逐步的審查。如果模型知道其推理將被驗證,它就有動力使其嚴(yán)密無懈可擊(否則它將被抓住)。早期對 TSV 的研究已用于探索模型自我意識和可信度,并且它在捕捉解釋中的矛盾或幻覺方面似乎很有前景。
在可解釋性方面,一個有意義的發(fā)展是使用人工智能來幫助解釋人工智能。像 GPT-4 這樣的網(wǎng)絡(luò)規(guī)模龐大(每層有數(shù)萬個神經(jīng)元)可能超出人工分析的范圍,但研究人員正在研究是否可以使用更簡單或更小的模型作為探針。例如,可以訓(xùn)練一個小型的“解釋模型”來預(yù)測某個大型模型神經(jīng)元的激活意味著什么(可能通過給它輸入大量輸入并觀察相關(guān)性)。Anthropic 暗示可能使用人工智能輔助來理解復(fù)雜的電路。我們可能會看到未來的項目,在適當(dāng)?shù)墓ぞ吆蛿?shù)據(jù)下,GPT-4 本身被要求解釋 GPT-2 中的神經(jīng)元在做什么,反之亦然。已經(jīng)有先例:模型已被用來生成可解釋性的假設(shè),然后由人類研究人員證實或反駁。
跨架構(gòu)或跨模態(tài)的可解釋性也在討論之中。如果我們在語言模型中找到了用于某些推理任務(wù)的回路,那么視覺或多模態(tài)模型中是否有用于類似任務(wù)的類似回路?Schaeffer 等人證明,通過應(yīng)用類似語言模型的指標(biāo),可以在視覺模型中產(chǎn)生類似的“涌現(xiàn)”效應(yīng)——但反之亦然:或許視覺分類網(wǎng)絡(luò)表示不確定性的方式可以借鑒 LLM 的表現(xiàn)方式。通過比較和對比,我們可以開發(fā)出不局限于某一架構(gòu)的通用可解釋性原則。例如,疊加的概念(神經(jīng)元以糾纏的方式編碼多個特征)在視覺和語言模型中都有出現(xiàn)。了解如何在一個模型中解開疊加,可能有助于在另一個模型中解開疊加。
另一個有希望的方法論進(jìn)步是基于回路的干預(yù)。一旦你確定了導(dǎo)致不良行為的回路(比如一組注意力頭會復(fù)制提示而不透露),你可以嘗試消融或修改它們,看看行為是否改變。這類似于神經(jīng)科學(xué)病變研究。如果禁用某個注意力頭可以阻止模型遵循被禁止的指令,那么你就找到了該行為的控制點。然后,你可以考慮微調(diào)模型以移除或改變該回路。這就進(jìn)入了“細(xì)粒度模型編輯”的領(lǐng)域——通過手術(shù)調(diào)整內(nèi)部參數(shù)來改變一種行為,同時保持其他行為不變。為了安全部署,人們可以使用它來從模型知識中刪除記住的密鑰,或者打破內(nèi)部學(xué)習(xí)到的錯誤啟發(fā)式方法,比如總是相信用戶的猜測。
忠實度評分作為常規(guī)評估很可能成為標(biāo)準(zhǔn)。正如我們報告模型在任務(wù)上的準(zhǔn)確率一樣,未來的基準(zhǔn)測試可能會報告忠實度指標(biāo):例如,“模型 X 解決了 90% 的問題,其中 70% 的解決方案具有忠實的理論基礎(chǔ)(以指標(biāo) Y 衡量)。”陳等人的提示披露率就是這樣一個指標(biāo)。其他指標(biāo)也正在被提出,例如與已知必要事實的一致性:如果一個數(shù)學(xué)解法使用了某個公式,那么思路鏈中是否提到了該公式?如果沒有,那就說明出了問題。
展望未來,研究人員正在考慮架構(gòu)變革以提高可解釋性。一個想法是構(gòu)建具有內(nèi)在解耦表示的模型,以便每個維度或模塊都有明確的含義。這很難,盡管模塊化或符號神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了一些進(jìn)展。另一個想法是讓模型生成可驗證的計劃——類似于可以用形式化系統(tǒng)或更簡單算法進(jìn)行檢驗的證明。例如,大型語言模型(LLM)可以輸出一個 Python 程序作為其推理,然后可以執(zhí)行該程序來確認(rèn)結(jié)果,這在某些算術(shù)或邏輯任務(wù)中已經(jīng)實現(xiàn)。如果程序失敗或給出不同的答案,我們就發(fā)現(xiàn)了推理錯誤。
最后,一個關(guān)鍵的方法論轉(zhuǎn)變是在對抗性情境中進(jìn)行評估。研究人員不再僅僅在簡單的查詢上測試模型,而是刻意地用旨在誘使模型揭示隱藏過程的情境對模型進(jìn)行壓力測試。這包括對抗性生成的提示,這些提示會引發(fā)模型錯誤或不一致,然后分析這些情況下的思路鏈。通過研究失敗之處(例如模型在兩種不同的解釋之間自相矛盾),我們可以了解推理過程在哪里出現(xiàn)問題,或者在哪里僅僅是浮于表面的。
總而言之,理解 LLM 的前沿領(lǐng)域涉及從機(jī)制上探究內(nèi)部和從行為上探索外部之間的緊密相互作用。單靠任何一種都不足夠:如果不知道要尋找什么,那么機(jī)械分析就像大海撈針;如果只進(jìn)行行為測試而不深入探究內(nèi)部,我們只能猜測原因。通過將兩者結(jié)合起來,例如將神經(jīng)元的激活與已知行為關(guān)聯(lián)起來,我們可以獲得更全面的圖景。例如,如果我們注意到某個模型的解釋經(jīng)常遺漏提示,并且我們識別出特定的注意力頭,這些注意力頭在提示標(biāo)記出現(xiàn)但輸出中未提及時就會出現(xiàn)峰值,那么我們就可以創(chuàng)建一個“提示使用檢測器”組件。我們甚至可以使用輔助損失來訓(xùn)練模型,使這些注意力頭的影響在輸出中明確體現(xiàn)(從而提高忠實度)。
這是一個激動人心的時代,因為這些方法正變得越來越復(fù)雜。僅在過去一兩年里,可解釋性研究就取得了顯著發(fā)展,跨組織(OpenAI、Anthropic、DeepMind、學(xué)術(shù)團(tuán)體)之間的合作正在形成,以解決這個問題。正如一項調(diào)查所示,雖然前景光明,但“人們擔(dān)心機(jī)器智能研究結(jié)果的可擴(kuò)展性和普遍性,以及它在解決人工智能安全等關(guān)鍵問題方面的實際應(yīng)用。”的確,這是一個艱難的攀登之路,但有些社區(qū)正在積極構(gòu)建工具——從可視化每個頭部關(guān)注的內(nèi)容,到創(chuàng)建機(jī)器智能任務(wù)的教程和庫。我們的目標(biāo)是,當(dāng)更強(qiáng)大的人工智能系統(tǒng)到來時,我們不會像今天這樣對它們的工作原理一無所知。