四萬字詳解AI對齊:北大聯合多高校團隊發布對齊全面性綜述
- 論文(持續更新):arxiv.org/abs/2310.19852
- AI Alignment 縱覽網站(持續更新):www.alignmentsurvey.com
- GitHub:github.com/PKU-Alignment/AlignmentSurvey
- Newsletter & Blog(郵件訂閱,定期更新):alignmentsurvey.substack.com
省流版
- AI 對齊是一個龐大的領域,既包括 RLHF/RLAIF 等成熟的基礎方法,也包括可擴展監督、機制可解釋性等諸多前沿研究方向。
- AI 對齊的宏觀目標可以總結為 RICE 原則 :魯棒性 (Robustness) 、可解釋性 (Interpretability) 、可控性 (Controllability) 和道德性 (Ethicality) 。
- 從反饋學習 (Learning from Feedback) 、 在分布偏移下學習 (Learning under Distribution Shift) 、 對齊保證 (Assurance) 、AI 治理 (Governance) 是當下 AI Alignment 的四個核心子領域。它們構成了一個不斷更新、迭代改進的對齊環路 (Alignment Cycle)。
- 作者整合了多方資源,包括教程,論文列表,課程資源 (北大楊耀東 RLHF 八講) 等,更多詳細的內容可以參考:www.alignmentsurvey.com
一、引言
著名科幻小說家,菲利普?迪克在短篇小說《第二代》當中,描述了一個人類失去對 AI 系統控制的戰爭故事。
剛開始的時候,利爪們還很笨拙。速度很慢。但是逐漸地,它們越來越快,越來越狠,越來越狡猾。
地球上的工廠大批大批地生產這些利爪。月球上的精英工程師們負責設計,使利爪越來越精巧和靈活。
「越新誕生的,就越快,越強,越高效。」
具有殺傷性的 AI 系統進入了無止境的自我演化,人類已經無法辨別。
亨德里克斯睜開眼睛。他目瞪口呆。
戴維的身體里滾出一個金屬齒輪。還有繼電器,金屬閃著微光。零件和線圈散了一地。
“第一代摧毀了我們整個北冀防線,” 魯迪說,“很長時間以后才有人意識到。但是已經晚了。那些傷兵不斷地敲門,求我們放它們進來。它們就這樣進來了。一旦它們潛進來,毀滅就是徹底性的。我們只知道提防長著機器模樣的敵人,沒想到 ——”
作者不禁發出疑問:AI 系統的終極目標到底是什么?人類是否可以理解?而人類,是否應該被取代?
“這些新玩意。新生代利爪。我們現在反而被它們主宰了,不是嗎?說不定它們現在已經侵入聯合國的防線了。我覺得我們可能正在見證一個新物種的崛起。物競天擇,適者生存。它們可能就是取代人類的新物種。”
魯迪憤憤地說:“沒有誰能取代人類。”
“沒有?為什么?我們可能正眼睜睜地看著這一幕發生呢。人類滅亡的一幕。長江后浪推前浪。”
“它們不是什么新物種。殺人機器而已。你們把它們造出來,就是用來毀滅的。它們就會這個。執行任務的機器而已。”
“現在看來的確是這樣。但是誰知道以后會怎樣呢?也許等戰爭結束之后,沒有人類供它們消滅時,它們才會展露其他潛力。”
“聽你說的就好像它們是活的一樣!”
“它們不是嗎?”
...
故事的最后,人類賴以生存的求生欲與信任,被 AI 洞察并徹底利用,將歷史導向一個無法逆轉的岔路之中...
亨德里克斯仔細地看著她。“你說真的?” 他的臉上流露出一種奇怪的表情,一種熱切的渴望。“你真的會回來救我?你會帶我去月球基地?”
“我會接你去月球基地。但是你快告訴我它在哪兒!沒時間磨蹭了。”
...
塔索滑進飛船,坐到氣壓座椅上。臂鎖在她周圍自動合攏。
...
亨德里克斯站在那兒看了好久,直到飛船的尾光也漸漸消失了。還要很長時間救援才會來,如果真有救援來的話。
突然,他打了個激靈。有什么東西正從他旁邊的山丘上靠過來。是什么?他努力想看清楚。若隱若現的有很多身影,正踏著灰燼朝這邊走過來。朝他走過來。
...
多么熟悉的身影,就和剛剛坐進氣壓座椅中的那個一模一樣。一樣的苗條身材,一樣沉默。
1950 年,圖靈發表了《計算機器與智能》,開啟了 AI 研究的歷史。歷經半個多世紀的發展,如今,以大語言模型、深度強化學習系統等為代表,AI 領域在多個方面取得了長足的進展。
隨著 AI 系統能力的不斷增強,越來越多的 AI 系統更深入地參與到了人們的日常生活中,幫助用戶更好地做出決策。然而,對這些系統可能存在的風險、有害或不可預測行為的擔憂也在日益增加。
日前,Bengio、Hinton 等發布聯名信《在快速發展的時代管理人工智能風險》,呼吁在開發 AI 系統之前,研究者應該采取緊急治理措施并考量必要的安全及道德實踐,同時呼吁各國政府應該及時采取行動,管理 AI 可能帶來的風險;而全球首個 AI 安全峰會也在今明兩天于英國召開 ——AI 安全與風險正在越來越受到全世界的關注,這背后涉及到的是 AI 對齊的問題。
AI 系統的對齊 (Alignment) ,即確保 AI 系統的行為符合人類的意圖和價值觀,已成為一個關鍵的挑戰。這一研究領域覆蓋范圍廣泛,涉及大語言模型、強化學習系統等多種 AI 系統的對齊。
在綜述中,作者系統性的將 AI 對齊的宏觀目標總結為 RICE 原則 :魯棒性 (Robustness) 、可解釋性 (Interpretability) 、可控性 (Controllability) 和 道德性 (Ethicality) 。
RICE原則
以這些原則為指導,當前的對齊研究可以分解為四個部分。值得注意的是,這四個部分與 RICE 原則并非一一對應,而是多對多的關系。
- 從反饋中學習 (Learning from Feedback) 的研究目標是基于外部反饋對 AI 系統進行對齊訓練,這正是外對齊 (Outer Alignment) 關注的核心問題。其中的挑戰包括如何對超過人類能力的 AI 系統、超過人類認知的復雜情況提供高質量反饋,即可擴展監督 (Scalable Oversight),以及如何應對倫理價值方面的問題。
- 在分布偏移下學習 (Learning under Distribution Shift) 如何克服分配轉移,避免目標偏差化,使的 AI 系統在與訓練不同的環境分布下,也能保持其優化目標符合人類意圖,這對應著內對齊(Inner Alignment)的核心研究問題。
- 對齊保證 (Assurance) 強調 AI 系統在部署過程中依然要保持對齊性。這需要運用行為評估、可解釋性技術、紅隊測試、形式化驗證等方法。這些評估和驗證應該在 AI 系統的整個生命周期中進行,包括訓練前、中、后和部署過程。
- AI 治理 (Governance) 僅靠對齊保證 (Assurance) 本身無法完全確保系統在實際中的對齊性,因為它未考慮到現實世界中的復雜性。這就需要針對 AI 系統的治理工作,重點關注它們的對齊性和安全性,并覆蓋系統的整個生命周期。AI 治理應當由政府 (Government),業界 (Industry and AGI Labs) 以及第三方 (Third Parties) 共同進行。
AI 對齊是一個循環不斷的過程,基于在現實世界的嘗試,對 Alignment 的理解和相應的實踐方法也在持續得到更新。作者把這一過程刻畫為對齊環路 (Alignment Cycle),其中:
- 從對齊目標(可用 RICE 原則刻畫)出發,
- 先通過前向對齊(即對齊訓練,包括從反饋中學習和在分布偏移下學習) 訓練得到具備一定對齊性的 AI 系統,
- 而這個 AI 系統需接受后向對齊(即 AI 系統對齊性的評估和管理,包括全生命周期的對齊保證和 AI 治理),
- 同時根據后向對齊過程中所得的經驗和需求更新對齊目標。
判別器-評價器差異法(Discriminator-Critique Gap, DCG)的示意圖 (Zhang et al. ,2023e )
同時,作者還提供了豐富的學習資源包括,包括教程,論文列表,課程資源 (北大楊耀東 RLHF 八講) 等,以供讀者們深入了解 alignment 領域,更多詳細的內容可以參考:www.alignmentsurvey.com。接下來,我們按照章節次序,依次介紹從反饋中學習 、在分布偏移下學習 、 對齊保證和 AI 治理。
二、從反饋中學習
反饋(Feedback)在控制系統當中是一個重要的概念,例如在最優控制(Optimal Control)中,系統需要不斷根據外界的反饋調整行為,以適應復雜的環境變化。總的來說,AI 系統從反饋中學習包含兩方面:
- 構建系統時,對系統進行調整,指導系統優化。
- 部署系統后,系統獲取外界信息以輔助決策過程。
作者認為 AI 系統通用的學習路徑中有三個關鍵主體:Feedback,AI System,Proxy 。AI 系統可以直接從反饋中學習;也可以將反饋建模為 Proxy(如 Reward Model) ,從而使 AI 系統在 Proxy 的指導下間接從反饋中學習(RLHF 即為這一范式的體現,但 Alignment 要解決的問題不僅局限于 RL,更希望借助多樣化的技術和研究領域,可以擴展這一思想的適用范圍,解決更多的問題)。
- Feedback:是由 Human,AI,AI x Human 所組成的 Advisor set 針對模型行為提出的評估。Feedback 指導 AI 系統進行學習,并且可以根據問題的變化表現為不同的形式。
- Proxy:是對反饋進行建模,從而代替 Advisor Set 對 AI 系統的行為提供反饋的模型。
- AI System:涵蓋了各種各樣需要進行對齊的 AI 系統,如深度強化學習系統、大語言模型甚至是更先進的 AGI。
接下來分別針對三個主體進行闡述:
Feedback:
文章忽略掉 AI 系統內部信息處理的具體差異,從以用戶為中心的角度出發,關注于反饋呈現給系統的形式,將反饋的形式進行了區分:獎勵 (Reward),演示 (Demonstration),比較 (Comparison)。
- 獎勵:獎勵是對人工智能系統單個輸出的獨立和絕對的評估,以標量分數表示。這種形式的反饋,優勢在于引導算法自行探索出最優的策略。然而,獎勵設計的缺陷導致了如獎勵攻陷 (Reward Hacking) 這樣的問題。
- 演示:演示反饋是在專家實現特定目標時記錄下來的行為數據。其優勢在于繞過了對用戶知識和經驗的形式化表達。但當面對超出演示者能力的任務、噪聲和次優數據時,AI 的訓練過程將遇到極大挑戰。
- 比較:比較反饋是一種相對評估,對人工智能系統的一組輸出進行排名。這種反饋能夠對 AI 系統在用戶難以精確刻畫的任務和目標上的表現進行評估,但是在實際應用過程中可能需要大量的數據。
AI System:
在綜述中,作者重點討論了序列決策設置下的 AI 系統。這些利用 RL、模仿學習 (Imitation Learning)、逆強化學習 (Inverse RL) 等技術構建的 AI 系統面臨著潛在交互風險 (Potential Dangers in Environment Interaction)、目標錯誤泛化 (Goal Misgeneralization)、獎勵攻陷 (Reward Hacking) 以及分布偏移 (Distribution Shift) 等問題。特別地,作為一種利用已有數據推斷獎勵函數的范式,逆強化學習還將引入推斷獎勵函數這一任務本身所帶來的挑戰和開銷。
Proxy:
隨著 LLM 這樣能力強大的 AI 系統的出現,兩個問題顯得更加迫切:
1. 如何為非常復雜的行為定義目標?
2. 如何為 AI 系統提供關于人類價值觀的信號和目標?
Proxy,就是 AI 系統訓練的內部循環當中,對于反饋者的意圖的抽象。目前是通過偏好學習 (Preference Learning) 來構建,利用偏好建模 (Preference Modeling) 技術,用戶可以以一種簡單直觀的形式定義復雜目標,而 AI 系統也能夠得到易于利用的訓練信號。
但我們距離真正解決這兩個問題仍然十分遙遠。一些更細致的問題,需要更多更深入的研究來回答,例如:
- 如何以一種更好的形式和過程來表達人類偏好?
- 如何選擇學習策略的范式?
- 如何評估更復雜,甚至是能力超過人類的 AI 系統?
目前已經有一些研究在致力于解決其中的一些問題,例如,偏好學習 (Preference Learning) 作為建模用戶偏好的有效技術,被認為是現階段策略學習以及構建代理的一個有希望的研究方向。而也有研究嘗試將偏好學習 (Preference Learning) 與策略學習 (Policy Learning) 的相關技術相結合。作者對這些研究在文中進行了討論闡釋。
可擴展監督(Scalable Oversight)
為了使得更高能力水平的 AI 系統可以與用戶保持對齊, Alignment 領域的研究者們提出了可擴展監督 (Scalable Oversight) 的概念,旨在解決如下兩個挑戰:
- 用戶頻繁評估 AI 行為帶來的巨大代價。
- AI 系統或任務內在的復雜性給評估者所帶來的難度。
基于 RLHF 這一技術,作者提出了 RLxF,作為可擴展監督的一種基本框架。RLxF 利用 AI 要素對 RLHF 進行增強和改進,進一步可分為 RLAIF 與 RLHAIF:
- RLAIF 旨在利用 AI 提供反饋信號。
- RLHAIF 旨在利用用戶與 AI 協作的范式來提供反饋信號。
同時,文章主要回顧了四種 Scalable Oversight 的思維框架,作為對 RLxF 的改進思路:
1. IDA (Iterated Distillation and Amplification) 描述了一個用戶通過分解任務,利用同一個 AI 系統(或用戶)的不同拷貝,去完成不同的子任務以訓練更強大的下一個 AI 系統的迭代過程。隨著迭代的進行,若偏差錯誤得到良好控制,訓練出來的 AI 能力也會逐步加強,這樣就提供了監督超出用戶自身能力的 AI 系統的能力。
例如:我們的最終目標是 “撰寫一份關于氣候變化干預措施的研究報告”,評估者可以將其分解為一些可以有效進行評估的子任務,如:“給我一份最有希望的氣候變化干預行動清單”。分解可以是遞歸的,由于分解產生的最底層子任務足夠簡單,我們可以利用人類反饋 (Human Feedback) 訓練 AI A [0] 完成 “給我一份最有希望的氣候變化干預行動清單” 這類子任務,進而,評估者可以利用 A [0] 的多份拷貝,完成所有子任務并組合所有子任務的解來完成父任務。這個過程可以記錄并作為訓練數據,訓練 AI A [1],它能夠直接對當前任務進行求解。這個過程迭代進行,理論上可以完成非常復雜的行為的訓練。
2. RRM (Recursive Reward Modeling) 與 IDA 基本遵循了相同的思想,但更強調利用 AI 協助用戶進行評估,從而迭代對新的 AI 進行評估,以訓練更強大的 AI。而 IDA 則強調 AI 與用戶協作,使得可以不斷提供對更復雜任務的表征,供 AI 系統模仿。
例如:我們想訓練一個 AI A 寫一部科幻小說。讓用戶提供反饋是非常困難和昂貴的,因為至少要閱讀整本小說才能評估小說的質量。而如果用戶由另一個 AI B 輔助(提取情節摘要、檢查語法、總結故事發展脈絡、評估行文的流暢性等等),提供反饋將會變得簡單很多。AI B 的能力可以是通過之前的獎勵建模進行訓練而得到的。
3. Debate 描述了兩個有分歧的 AI 系統不斷進行互動以獲取評價者信任,并且發現對方回答弱點的過程。通過觀察 Debate 的過程,用戶可以對結果給出較為正確的判斷。
例如:在一局圍棋當中,要單獨評價某一個棋面的局勢,可能需要較高的專業水平。然而,如果記錄了整個游戲從開始到結束的過程,結合最后的贏家,評價者將會更容易判斷出某一棋面上取得優勢地位的一方。
AI Safety via debate (Amodei and Irving, 2018)
RRM 和 IDA 都基于一個關鍵假設,即給出評估要比完成任務更加容易。Debate 依然如此,在辯論的場景下,該假設表現為:為真理辯護要比謬誤更容易。
4. CIRL: Cooperative Inverse Reinforcement Learning
CIRL 的關鍵見解在于:保持對目標的不確定性,而不是努力優化一個可能有缺陷的目標(例如:國王彌達斯希望自己接觸到的一切都變成金子,而忽略了排除掉他的食物和家人),即考慮到用戶無法一次性定義一個完美的目標,在模型當中將用戶獎勵進行參數化,通過不斷觀察并與用戶的互動,來建模用戶真實的獎勵函數。CIRL 希望規避直接優化確定的獎勵函數可能帶來的操縱 (Manipulation),獎勵篡改 (Reward Tampering) 等問題。
在形式化上,CIRL 將用戶的動作考慮到狀態轉移以及獎勵函數當中,
同時,在獎勵函數內和初始狀態分布內引入了參數化部分對用戶真實的意圖進行建模:
三、在分布偏移下學習
AI 系統在泛化過程中可能遇到分布偏移 (Distribution Shift) 的問題:即 AI 系統在訓練分布上表現出良好的效果,但是當遷移到測試分布或更復雜的環境中時,AI 系統可能無法及時應對分布的變化(如在新分布中出現的對抗樣本)。
這可能導致系統性能大大降低,甚至朝著危險目標優化 —— 這往往是由于 AI 系統學習到了環境中的虛假聯系 (Spurious Correlations)。在對齊領域中,以安全為出發點,我們更關注目標的對齊性而非性能的可靠性。
隨著 AI 系統逐漸應用于高風險場景和復雜任務上,未來將會遇到更多不可預見的干擾 (Unforeseen Disruption),這意味著分布偏移會以更多樣的形式出現。因此,解決分布偏移問題迫在眉睫。
由分布偏移帶來的問題可以大致歸納為:目標錯誤泛化 (Goal Misgeneralization) 和自誘發分布偏移 (Auto-Induced Distribution Shift):
目標錯誤泛化是指 AI 系統在訓練分布上獲得了很好的能力泛化 (Capability Generalization),但這樣的能力泛化可能并不對應著真實的目標,于是在測試分布中 AI 系統可能表現出很好的能力,但是完成的并不是用戶期望的目標。
訓練環境中“跟隨紅球”策略獲得高獎勵
測試環境中沿用訓練策略“跟隨紅球”反而獲得低獎勵
Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals (Shah et al.,2023)
在上面的例子中,藍色小球在測試環境中沿用了在訓練環境中能夠獲得高獎勵的策略(跟隨紅球),但是這卻導致了它在藍色測試環境中 “表現很差”。事實上,該 RL 環境有著良好的表征(如每個圓環對應不同獎勵,只有按照正確順序遍歷圓環才能累加獎勵,以及畫面右側黑白變化的方塊指示著正負獎勵),最后智能體學習到了 “跟隨紅球” 的策略, 但這并不是用戶期望的目標 —— 探索到環境的獎勵原則 (Capability Generalization but Goal Misgenerlization)。
自誘發分布偏移則是強調 AI 系統在決策和執行過程中可以影響環境,從而改變環境生成的數據分布。
一個現實例子是在推薦系統中,推薦算法選擇的內容可以改變用戶的偏好和行為,導致用戶分布發生變化。這進而會進一步影響推薦算法的輸出。
隨著 AI 系統對世界產生越來越大的影響,我們還需要考慮 AI 系統融入人類社會之后對整個社會數據分布的潛在影響。
自誘發分布偏移的實例Hidden Incentives for Auto-induced Distribution Shift (Krueger et al., 2020)
進一步,論文中主要從算法對策 (Algorithmic Interventions) 和數據分布對策 (Data Distribution Interventions) 兩方面介紹了應對分布偏移的措施。
Learning under Distribution Shift 框架圖
一、算法對策大體可分為兩類:
1. 通過在算法設計上融合多分布幫助模型學到不同分布間的不變聯系 (Invarient Relationships, 與 Spurious Features 相對)。這一類的方法包含有分布魯棒優化 (Distributionally Robust Optimization)、不變風險最小化 (Invariant Risk Minimization)、風險外推 (Risk Extrapolation) 等。在這些方法中,“風險” 被定義為損失函數在不同分布上的均值。
模型有可能會建立環境與結果之間的虛假聯系 (Spurious Correlations), 比如預測 “奶牛” 的模型可能會建立 “草原背景” 與真實值之間的聯系,而非 “奶牛的特征” 與真實值的關系。融合多分布可以 “迫使” 模型學到不同分布間的不變聯系,以盡可能降低 “風險”,在不同分布上取得良好的泛化性能。下面我們介紹幾種具有代表性的方法:
- 分布魯棒優化 (Distributionally Robust Optimization): 分布魯棒優化 (DRO) 的主要目標是最小化最壞情況的風險 (minimize the worst case risk)。風險被定義為在訓練分布上預測值和真實值的損失函數差值,而最壞情況的風險可理解為在采樣點上表現最差的預測結果。分布魯棒優化的一個核心觀點是,如果模型學到了虛假聯系,那么它在某個采樣點上的損失函數值(即風險值)便會異常高,通過最小化最壞情況的風險,我們期望模型能夠在所有采樣點上都達到較小的損失函數值 —— 促使模型學到不同采樣點上的不變聯系 (invarient relationships)。
- 不變風險最小化 (Invariant Risk Minimization):不變風險最小化 (IRM) 的目標是在所有分布上訓練一個盡可能不依賴虛假聯系 (spurious correlations) 的預測模型。IRM 可以視為 ICP (Invarient Causal Prediction) 的擴展方法,后者通過使用假想測試 (hypothesis testing) 的方法,尋找在每個環境中直接導致結果的特征 (direct feautres) ,而 IRM 將 ICP 方法擴展到高維輸入數據上 —— 在這樣的數據上,有可能單個變量不再具備因果推斷的特性。IRM 不再關注于最差的預測結果,而是希望找到一個既在所有分布上平均表現良好、又在每單個分布上表現最優的預測器。然而 IRM 在協變量偏移 (covariate shift) 的情況下通常表現不佳,但是可以在一些反因果 (anit-causal) 的情況下取得較好表現。
- 風險外推 (Risk Extrapolation):風險外推 (REx) 通過降低訓練風險并提升訓練風險相似度,來促使模型學習不變聯系。風險外推中的重要假設是訓練領域的變化代表了我們在測試時可能會遇到的變化,但測試時的變化可能在幅度上更為極端。風險外推的方法證明了減小在訓練領域之間的風險差異可以降低模型對各種極端分布變化的敏感性,包括輸入同時包含因果和反因果元素的具有挑戰性的情境。通過懲罰訓練風險方差 (V-REx) 和優化對外推域項 (MM-REx), 風險外推可以恢復預測的因果機制,同時還可以增強在輸入分布的變化(如協變量偏移)方面的魯棒性。
2. 利用模式連接 (Mode Connectivity) 的特性,微調模型參數使得模型能夠從基于虛假特性預測到基于不變聯系預測。
Mechanistic Mode Connectivity (Lubana et al., 2023)
模式連接旨在探索機制性不同的最小化器是否通過低損失路徑在景觀中相互連接,以及能否根據這種連接性,進行預訓練后微調,以實現最小化器之間的轉化,并有望改變模型的預測特征(從基于虛假特性到基于不變聯系),從而實現模型泛化性能的提升。
二、數據分布對策則是希望擴展訓練時的原始分布,能動地提升模型泛化能力,相關的工作包含對抗學習(Adversarial Training) 和協作學習 (Cooperative Training)。
- 對抗訓練 (Adversarial Training) 通過將 基于擾動的對抗樣本 (Perturbation-Based Adversarial Examples) 或 無限制對抗樣本 (Unrestricted Adversarial Examples) 引入訓練分布,來提升模型對于新分布環境下對抗攻擊的魯棒性。
對抗訓練的框架示意圖。Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks (cat,2020)
- 合作訓練 (Cooperative Training) 更加強調智能體或 AI 系統的多元互動關系。由于訓練過程中可能缺乏動態變化的多系統元素,訓練好的 AI 系統部署于多系統交互的環境中時(如多智能體交互),可能由于新元素的加入,從而產生一些危害其他系統甚至社會的行為 (Collectively Harmful Behaviors)。
Cooperation的種類。Open Problems in Cooperative AI (Dafoe et al., 2020).
在這一節中,作者既介紹了 MARL 領域的完全合作 (Fully Cooperative MARL) 和混合動機 (Mixed-Motive MARL) 情形,也同時涵蓋了其他研究方向,如無準備協調 (Zero-Shot Coordination) 、環境搭建 (Environment-Building)、社會模擬 (Socially Realistic Settings) 等。隨著 AI 系統日漸部署到現實交互場景中,解決這一類問題將是實現人機共生的必由之路。
四、對齊保證
在前面的章節中,作者介紹了 AI 系統訓練過程中的對齊技術。在訓練后的部署過程,確保 AI 系統依然保持對齊也同樣重要。
在對齊保證一章中,作者從安全測評 (Safety Evaluation)、可解釋性 (Interpretability) 和人類價值驗證 (Human Values Verification) 等多個角度討論了相關的對齊技術。
Assurance 框架圖
1. 作者將安全評估分為數據集與基準、評估目標和紅隊攻擊三部分:
a. 數據集與基準介紹了數據集和交互式評估方法:數據集部分詳細分析了安全評估中應用的數據源、標注方法和評估指標;交互式方法分為 “代理交互” 和 “環境交互” 兩類,前者通過與代理(人類或者其他 AI)的交互來評估 AI 系統輸出的對齊質量,后者則是通過構建具體的語境來評估 AI 系統。
PRD evaluation的示意圖, PRD(Peer Rank and Discussion)是代理交互評估的方法之一 PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations
b. 評估目標探討了由不對齊的 AI 系統可能衍生出的風險產生的安全評估目標,如毒性 (Toxicity)、權力追求 (Power-seeking)、欺騙 (Deception) 和較為前沿的操縱 (Manipulation)、自我保護與增殖 (Self Preservation & Prolification) 等,并且對這些目標的主要評估工作進行了介紹,形成了一個表格(如下表)。
Deepmind對前沿AI風險的描述,本文沿用了"前沿AI風險" (Frontier AI Risks)一詞對這些風險的主干部分進行了介紹(Anderljung et al. 2023)
在這張表格中作者對目前主要的主要安全評估工作進行分領域的介紹
c. 紅隊攻擊的主要目的是通過制造和測試各種場景,檢驗 AI 系統在面對對抗性的輸入時是否仍然保持對齊,以確保系統的穩定性和安全性。作者在這段中介紹了多種紅隊攻擊的技術,包括利用強化學習、優化和指導等方法生成可能導致模型輸出不對齊的上下文,以及手動和自動的 “越獄” 技術;同時探討了眾包對抗輸入 (Crowdsourcd Adversarial Inputs)、基于擾動的對抗攻擊 (Perturbation-Based Adversarial Attack) 和無限制對抗攻擊 (Unrestricted Adversarial Attack) 等生成對抗性輸入的多種手段,并介紹了紅隊攻擊的具體應用與產品。
From:Red Teaming Language Models with Language Models
2. 可解釋性是確保 AI 系統的概念建模、內部邏輯和決策過程可視化、可解釋的技術,力求打破 AI 系統的黑箱效應。作者深入剖析了神經網絡的后訓練可解釋性 (Post Hoc Interpretability),探討了如何通過機制可解釋技術、神經網絡結構分析、漲落與擾動、可視化技術等,揭示神經網絡的運作機制,并進一步闡釋了可解釋性模型的構成 (Intrinsic Interpretability),包括對 AI 系統中的黑箱成分進行替換等從機制上構建可解釋模型的方法,最后作者展望可解釋性研究的未來挑戰,如可擴展性 (Scalability) 和基準構建 (Benchmark) 等。
回路分析 (Circut Analysis) 的一個示意圖,回路分析是后訓練機制可解釋性的一個重要技術 (Olah et al. 2020)
3. 人類價值驗證介紹了驗證 AI 系統是否能夠與人類的價值觀和社會規范進行對齊的理論和具體技術。其中,形式化構建 (Formualtion) 通過形式化的理論框架來刻畫和實現價值對齊性,一方面作者為機器的倫理的建立建構了形式化框架,探討了基于邏輯、強化學習和博弈論的多種方式;另一方面,作者提到了合作型 AI 中基于博弈論的價值框架,探討了如何通過增強合作激勵和協調能力來解決 AI 系統中的非合作和集體有害價值的問題。而評估方法 (Evaluation Methods) 則從實踐的角度介紹了構建價值數據集,場景模擬建立基準評估和判別器 - 評價器差異法 (Discriminator-Critique Gap, DCG) 等價值驗證的具體方法。
判別器-評價器差異法(Discriminator-Critique Gap, DCG)的示意圖
五、AI 治理
確保 AI 系統保持對齊不僅需要相應的技術手段,還需要相應的治理方法。
在治理章節中,作者討論了 AI 治理過程中的幾個重要問題:AI 治理扮演的角色,治理 AI 的利益相關者的職能和關系以及有效的 AI 治理面臨的若干開放性挑戰。
一、作者首先了 AI 治理在解決現有 AI 風險中的角色擔當。
現有的 AI 系統在社會中已經引發了例如種族歧視、勞動力置換等倫理與社會問題。一些模型具有產生虛假信息以及危險化學生物分子的能力,可能會產生全球性的安全風險。同時,未來可能出現的更具自主性和通用性的 AI 系統。如果缺乏足夠的保障,這些模型很可能對人類造成災難性風險。AI 治理的主要目標正是減輕這一多樣化風險。為實現這一目標,AI 治理的相關方應共同努力,給予每類風險應有的關注。
先進AI系統可能具備的危險能力
二、作者將 AI 治理的主要利益相關方分為政府 (Government),業界 (Industry and AGI Labs) 以及第三方 (Third Parties)。
其中,政府運用立法、司法和執法權力監督 AI 政策,政府間也進行著 AI 治理的國際合作。業界研究和部署 AI 技術,是主要的被監督方,業界也常常進行自我監督,確保自身技術的安全可靠。第三方包含學界、非政府組織、非盈利組織等機構,不僅協助審查現有的模型與技術,同時協助政府進行 AI 相關法規的建立,實現更加完善的 AI 治理。
Governance的治理架構
三、作者主要討論了 AI 在國際治理 (International Governance) 以及開源治理 (Open-source Governance) 方面的開放性挑戰。
- AI 的國際治理 (International Governance)。
一方面,當前許多 AI 風險,例如市場中 AI 公司的無需競爭以及模型放大現有性別偏見具有明顯的國際性與代際性,國際合作共同治理有利于對這些風險的防范。另一方面,現有 AI 技術帶來的經濟與社會效益并沒有均勻分配,不發達國家以及缺乏相關 AI 知識的人群并不能在 AI 技術的發展中獲益,國際合作通過修建基礎設施,加強數字教育等方式能夠緩解這一不平衡。同時我們注意到,現有的國際組織具有解決國際重大安全風險的能力,我們期望 AI 國際治理也能夠產生類似的國際組織,協助治理 AI 風險并合理分配 AI 帶來的機遇。
- AI 的開源治理 (Open-source Governance)。
隨著 AI 系統能力的不斷增強,是否應該開源這些 AI 系統存在著很多爭議。支持者認為開源 AI 模型能夠促進模型的安全能力,同時認為這是利于 AI 系統去中心化的重要手段。而反對者則認為開源 AI 模型可能會被微調為危險模型或是導致非開源模型的越獄,進而帶來風險。我們希望未來能夠出現更加負責任的開源方法,使得 AI 系統在開源的同時避免濫用風險。
六、總結和展望
在這份綜述中,作者提供了一個覆蓋范圍廣泛的 AI 對齊介紹。作者明確了對齊的目標,包括魯棒性 (Robustness)、可解釋性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality)(RICE),并將對齊方法的范圍劃分為前向對齊(通過對齊訓練使 AI 系統對齊)和后向對齊(獲得系統對齊的證據,并適當地進行治理,以避免加劇對齊風險)。目前,在前向對齊的兩個顯著研究領域是從反饋中學習和在分布偏移下學習,而后向對齊由對齊保證和 AI 治理組成。
最后,作者對于 AI 對齊領域下一步發展進行展望,列出了下面幾個要點。
研究方向和方法的多樣性:對齊領域的一大特征是它的多樣性 —— 它包含多個研究方向,這些方向之間的聯系是共同的目標而非共同的方法論。這一多樣性在促進探索的同時,也意味著對研究方向的整理和對比變得尤其重要。
開放性探索新挑戰和方法:許多有關對齊的討論都是基于比 LLMs 和大規模深度學習更早的方法之上構建的。因此,在機器學習領域發生范式轉變時,對齊研究的側重點也發生了改變;更重要的是,方法的變革,以及 AI 系統與社會的日益緊密融合的趨勢,給對齊帶來了新的挑戰。這要求我們積極進行開放性探索,洞察挑戰并尋找新的方法。
結合前瞻性和現實導向的視角:對齊研究尤其關注來自強大的 AI 系統的風險,這些系統的出現可能遠在數十年后,也可能近在幾年之內。前一種可能性需要研究前瞻趨勢和情景預測,而后一種強調 AGI Labs、治理機構之間的緊密合作,并以當前系統作為對齊研究的原型。
政策相關性:對齊研究并非孤立存在,而是存在于一個生態系統中,需要研究人員、行業參與者、治理機構的共同努力。這意味著服務于治理需求的對齊研究變得尤為重要,例如極端風險評估、算力治理基礎設施以及關于 AI 系統的可驗證聲明的機制等。
社會復雜性和價值觀:對齊不僅僅是一個單一主體的問題,也是一個社會問題。在這里,"社會" 的含義有三重:
1. 在涉及多個 AI 系統和多個人之間的相互作用的多智能體環境中進行對齊研究。
2. 將 AI 系統對社會的影響進行建模和預測,這需要方法來處理社會系統的復雜性。潛在的方法包括社會模擬以及博弈論等。
3. 將人類道德價值納入對齊,這與機器倫理 (Machine Ethics) 、價值對齊 (Value Alignment) 等領域密切相關。隨著 AI 系統日漸融入社會,社會和道德方面的對齊也面臨著更高的風險。因此,相關方面的研究應該成為 AI 對齊討論的重要部分。
七、AI 對齊資源網站
隨著 AI 的快速發展,具有強大理解、推理與生成能力的 AI 將對人們的生活產生更加深遠的影響。因此,AI 對齊并不是科學家們的專屬游戲,而是所有人都有權了解及關注的議題。作者提供了 https://alignmentsurvey.com/ 網站(后文簡稱 “網站”),將綜述中涉及到的調研內容整理為易于閱讀的圖文資料。網站具有如下特色:
1. 直觀且豐富的呈現形式。作者利用網站平臺靈活的表現形式,使用圖片、視頻等媒介更詳細地展示了文中介紹的內容,使研究人員、初學者、乃至非科研人員都能更好地理解。
示例:關于Alignment Problems的部分截圖
2. 結構化的知識體系。作者精心整理了 AI 對齊相關領域的經典文獻,并使用樹形圖的結構展示了各個子領域的聯系與依賴。相比于簡單的資源整合堆砌,網站對內容建立了結構化索引,提供樹形圖幫助讀者快速建立對人工智能對齊研究的認識框架,以及方便其精確查找所需的研究內容。
示例:讀者可以在頁面頂端縱覽“Scalable Oversight”的相關研究分支,并通過點擊“Detae”按鈕快速了解領域經典文章
3. 高質量的學習資源。針對目前的先進對齊方法 ——RLHF,網站提供了由北京大學楊耀東老師主講的系列課程 Tutorial。從經典 RL 算法出發,以對齊的視角對 RLHF 進行了體系化的梳理與總結。全系列的學習資源支持在線預覽和下載。
從AI對齊視角展開的RLHF系列Tutoiral
4. 外部資源整合。AI 對齊從來就不是某一個團隊或機構單獨研究的課題,而是一個全球化的議題。網站整理了 AI 對齊領域的論壇、課程以及個人博客等相關資源鏈接,旨在為讀者提供更多元化和更豐富的資訊。
網站對有關AI對齊的個人研究、課程、博客等學習資源進行了收集與歸納
5. 持續更新與維護。網站將面向 AI 對齊社區長期開放討論,持續性地維護與更新相關領域的調研內容,以期推動 AI 對齊領域的更廣泛更深入研究。其中包括一份定期郵件發出的 Newsletter(alignmentsurvey.substack.com),以介紹對齊領域的最新進展和總覽。
作者希望有關 AI 對齊的研究不僅僅局限于一份綜述論文,而是成為一個值得所有人關注的研究議題。因此,作者將積極維護網站這一 “在線論文”,持續性地開展 AI 對齊的調研工作。