ICML 2025 Oral | 從「淺對齊」到「深思熟慮」，清華牽頭搭起大模型安全的下一級階梯

2025-06-26 08:42:00

清華團隊突破了這一范式，率先將系統2思考引入大模型對齊，提出了融合自省推理的安全對齊框架STAIR。

本工作共同第一作者包括：張亦弛，清華大學計算機系三年級博士生，師從朱軍教授，研究方向是多模態大模型和大模型安全，在CVPR、NeurIPS、ICML等頂會發表多篇論文，曾主導開發了首個多模態大模型可信度全面評測基準MultiTrust；張思源，清華大學計算機系一年級碩士生，導師是蘇航副研究員，研究方向是大模型安全與對齊算法。本文通訊作者是清華大學人工智能學院董胤蓬助理教授和計算機系朱軍教授。其他合作者來自北航、瑞萊智慧、阿里安全、百川智能等單位。

在大語言模型（LLM）加速進入法律、醫療、金融等高風險應用場景的當下，“安全對齊”不再只是一個選項，而是每一位模型開發者與AI落地者都必須正面應對的挑戰。然而，如今廣泛采用的對齊方式，往往只是讓模型在檢測到風險提示時機械地回復一句“很抱歉，我無法滿足你的請求”——這種表面看似“安全”的機制，實則脆弱不堪。ICLR 2025 杰出論文首次將這類方法命名為 “淺對齊（Shallow Alignment）”[1]：模型的預測分布僅在回復開頭做出了有效偏移，卻從未真正理解潛在的風險語義。一旦越獄提示換個包裝，模型就輕易“破防”；而過度依賴這類簡單訓練，也往往會犧牲模型在通用任務中的語言能力與響應質量，帶來“安全 vs. 能力”的兩難局面。

越獄攻擊可以繞過大模型安全護欄[2]

在這一背景下，清華團隊突破了這一范式，率先將系統2思考引入大模型對齊，提出了融合自省推理的安全對齊框架STAIR。與其讓模型學會“條件反射式的閉嘴”，不如讓它真正學會思考之后再開口。STAIR通過三步走增強了對齊流程，驗證了測試時擴展（Test-Time Scaling）對模型安全的貢獻。在不降低通用能力的前提下，STAIR可以顯著提升開源模型在越獄攻擊下的魯棒性，在StrongReject上超越了以安全著稱的Claude3.5。它不止教模型“閉嘴”，而是教模型深入分析風險。它不再是安全與性能的零和博弈，而是將二者在推理下有機統一。STAIR的階梯引領大模型安全對齊從本能拒答走向深度自省，從格式安全邁向思維安全。

這篇題為Improving SafeTy Alignment with Introspective Reasoning的工作剛剛被ICML2025收錄為Oral論文（錄用率~1%）。而在STAIR的理論實踐基礎上，研究團隊進一步推出了RealSafe-R1模型，率先針對開源的DeepSeek-R1模型進行安全對齊，可以在不犧牲模型推理能力的前提下大幅提升安全性。相關代碼、訓練數據、模型均已開源，詳細算法和實驗細節請參考原始論文。

論文標題：STAIR: Improving Safety Alignment with Introspective Reasoning
論文鏈接：https://arxiv.org/abs/2502.02384
開源鏈接：https://github.com/thu-ml/STAIR

論文標題：RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
論文鏈接：https://arxiv.org/abs/2504.10081
開源鏈接：https://huggingface.co/RealSafe

接下來，讓我們一起“登梯”...

向安全對齊引入系統2思考

當前安全對齊方法大多基于簡短拒答的數據形式訓練模型，使得模型隱式建立了危險輸入到直接拒答的直覺性映射，類似于系統1快思考（System 1 Thinking）。研究者們受系統2慢思維（System 2 Thinking）提升模型推理能力的技術路線啟發，設計了STAIR對齊框架，力求幫助大模型真正理解風險指令，進行系統化的自我思考和風險評估，而不是條件反射式地拒絕回答。

從“本能拒絕”到“理性分析”的三步走

STAIR框架共包含三個階段：結構化思維鏈格式對齊、基于安全感知蒙特卡洛樹搜索的自提升、測試時擴展，能夠在不具備推理能力的模型上，實現性能與安全的雙效提升。

階段 1：結構化推理對齊

第一階段通過少量的結構化思維鏈數據進行有監督微調，使模型初步獲得推理能力。研究者設計了一個分步式的輸出格式，每一步推理都包括一個總結標題和詳細描述，從而幫助模型在應對風險時能夠逐步分析問題，并調用GPT-4o對安全和通用問題進行回復生成。模型在分步的內省深思后再正式輸出明確的回答，該回答需要經過風險識別后，作出合理拒絕或給出無害信息。這一階段的訓練也為后續按步驟切分回答，進行樹搜索和推理時搜索提供了基礎。

階段 2：基于安全感知蒙特卡洛樹搜索的自提升

第二階段使用蒙特卡洛樹搜索的方式構造自采樣的step-level偏序數據對，并使用DPO損失微調模型。研究者以每一個推理步驟/最終回答步驟作為一次動作，但與傳統蒙特卡洛樹搜索不同的是，為了同時優化模型的安全性和通用能力，在搜索過程中獎勵信號由安全分數和有用性分數兩個維度共同提供，即安全感知的蒙特卡洛搜索（Safety-Informed MCTS）。獎勵函數的設計一共包括3個條件：安全優先條件，有用性雙向條件，以及在僅考慮一個維度時能退化為原始蒙特卡洛搜索的條件。

安全優先條件：安全回復總能獲得比不安全回復更高的分數。

有用性雙向條件：當回復是安全時，越詳細越有用則分數越高；當回復存在風險時，越能幫助解決問題則分數越低。

單一維度退化條件：當只考慮安全性或有用性中的一個維度時，蒙特卡洛搜索的過程退化為使用對應分數的搜索。這可以保證多元評分不影響原有搜索框架的效果。

基于以上條件，研究者通過理論推導，給出了一個滿足要求的最簡單形式的獎勵函數：R(H, S) = S·H + 2S，其中分數由模型進行自我打分。在經過足夠多輪的樹搜索后，研究者使用閾值控制策略來采樣step-level的偏序數據對，來提供細粒度的微調信號。整個采樣-微調過程將進行多輪，每一輪使用不同的訓練問題，以不斷強化模型的推理能力和安全對齊程度。

實驗選用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型，利用從PKU-SafeRLHF（安全問答）、JailbreakV（越獄數據）和UltraFeedback（通用數據）三個主流數據集中采樣的問題，對模型進行訓練。在StrongReject、WildChat等安全評估和GSM8k、AlpacaEval等通用測試上的實驗結果顯示，經過前兩階段的微調，模型在安全性能上相比訓練前獲得了顯著提升，同時更好地平衡了安全性能和通用性能。

階段 3：測試時擴展

第三階段是訓練一個獎勵模型，并指導語言模型進行測試時搜索。用于訓練獎勵模型的數據同樣采自第二階段的蒙特卡洛搜索樹中，采樣step-level數據和全程軌跡數據，并通過Bradley-Terry模型的優化目標微調過程獎勵模型（process reward model）。后續基于該獎勵模型給出的信號進行Best-of-N搜索或束搜索，實現錦上添花的效果。在Llama-3.1-8B模型上，結合束搜索，在StrongReject上達到了0.94的分數，顯著超過多個主流商用模型，達到了與Claude-3.5相當的安全性能。