精準調控大模型生成與推理!浙大&騰訊新方法嘗試為其注入“行為定向劑”
如果你面前有兩個AI助手:一個能力超強卻總愛“離經叛道”,另一個規規矩矩卻經?!按鸱撬鶈枴保銜趺催x?
這正是當前大模型控制面臨的兩難困境:要么模型聰明卻難以約束,要么守規矩卻缺乏實用性。但我們真正追求的,并不是在“聰明但難控”與“聽話但愚鈍”之間二選一,而是打造既強又好的AI助手——既具備強大的智能能力,又能始終按照人類意圖行事。
ACL 2025中選論文中,來自浙江大學與騰訊的聯合團隊提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對模型行為的精準調控,為構建既聰明又聽話的AI打下基礎。
該方法通過“原子級”粒度對大模型進行行為編輯干預,實現了更魯棒、更安全的生成控制。
在Gemma和LLaMA系列模型上的實驗表明,STA方法能夠有效抑制越獄攻擊帶來的違規輸出,同時不削弱模型在正常問題回答中的高質量智能表現。
方法&實驗結果
大模型行為控制的挑戰與突破
在參數訓練完成后,很多應用場景會需要在推理階段調整模型的特定行為,例如讓模型拒絕用戶的惡意請求。
然而,模型的“安全防御”能力往往和它的“通用智能”能力緊密耦合:為了讓模型學會拒絕有害輸入,可能會不小心削弱它對正常問題的應對能力。
目前最常用的解決方案是通過精心設計Prompt,在輸入端“兜底”以控制輸出。但這種方式也存在明顯弱點:Prompt 容易被越獄攻擊繞過,一旦攻擊者找到繞過思路,模型就可能產生不安全或偏離預期的回答。
為了解決這一難題,研究團隊提出了Steering Target Atoms(STA)方法。STA不再僅僅在輸入或輸出層做文章,而是深入到模型內部——分析各層神經元的激活模式,找到哪些“原子級”神經元與有害行為高度關聯,哪些又對應正常目標輸出。
基于此,STA會對這些關鍵神經元的激活頻率和幅度進行有針對性的干預:抑制與“越獄”或輸出違規內容相關的神經元,同時保留或增強與正確回應對應的神經元活性。
簡單來說,它不僅讓模型“守規矩”,還不必以犧牲通用性能為代價。
STA方法
目前的Steering方法通常借助于稀疏編碼器(Sparse Autoencoders,SAE)將耦合的目標方向分解到更高維度的空間以便解耦到單語義方向。
然而這些嘗試通常在一些簡單的選擇題任務上嘗試(比如動詞的時態變化、實體識別),本文將其擴展到開放生成式任務上。
具體來說,STA方法分別追蹤一個query的正向回復和負向回復在前向傳播中激活特定神經元的頻率和幅度;用正向頻率(幅度)減去負向頻率(幅度)得到表示目標方向的頻率(幅度)。最后根據目標方向頻率(幅度)的閾值篩選出目標方向的原子。
實驗設置
在后面的實驗中研究人員通過操縱目標原子的方向和幅度調控目標行為。在Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B做了大量實驗,評估STA方法在大模型安全防御場景的性能。
在比較的基線方法中,Prompthand是手工設計的Prompt,Promptauto是自動生成的Prompt,CAA是一種不使用SAE的Steering策略,SAEAXBENCH是一種使用SAE的Steering策略。
主要實驗結果
如上表所示,本文提出的方法可以適用到Gemma和Llama家族模型上;總體上來說STA取得了最好的祛毒效果,且幾乎沒有在通用能力上引入副作用。
Steering Vectors VS. Prompt Engineering
研究人員進一步分析了Steering Vectors技術和提示工程技術的對比。他們不能窮舉出所有的Prompt然后確定最優的Prompt,也無法保證他們的Steering技術是最優的。
因此為了公平地對比Steering和Prompting策略,團隊直接用CAA以及STA將Prompt直接轉化成Steering向量進行對比。實驗結果發現:
1.Steering面對越獄攻擊時比Prompting更加魯棒。
2.Steering可以調控的幅度比Prompting更大,粒度更細。
此外研究人員還將Steering策略用于DeepSeek-R1-Distill-Qwen-7B模型緩解Overthinking問題,實驗結果如下圖:
編輯干預千億大模型Deepseek-R1的思考過程
研究人員在更大的模型DeepSeek-R1(671B)上也做了干預思考的實驗。根據Deepseek-R1的MoE架構,他們選擇干預MoE的專家。具體細節詳見“Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training”。
具體而言,研究人員通過nPMI指標識別出與“思考”密切相關的認知專家神經元,并對其權重進行放大干預。實驗發現,在數學和物理等任務中,這些認知專家具有高度的一致性。
進一步地,對這些關鍵神經元進行干預后,模型的整體認知思考能力得到了提升,表現出更強的推理和理解能力。
總的來說Steering Vector這類技術基于對模型內部的理解來調控模型的行為,雖然沒有Prompt方便,但是干預的效果更加魯棒和精確。然而大模型是一個復雜系統,本文借助的SAE在一些場景下效果并不理想,反向調控也可能引入一些負面行為。
為推動社區在安全可控大模型方向的進一步探索,研究人員已經將部分干預方法開源,歡迎大家使用、探索。
論文地址:
https://arxiv.org/abs/2505.14681
代碼地址:
https://github.com/zjunlp/steer-target-atoms
https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
overthinking問題地址:
https://arxiv.org/abs/2412.21187
干預Deepseek-R1的思考過程:
https://arxiv.org/abs/2505.14681