Reward Hacking | 強化學習提升大模型推理能力,獎勵機制是關鍵 | 機制不合理,會導致多變的欺詐行為
大語言模型(LLM)的飛速發展正深刻改變著我們與信息和技術交互的方式(想想大家有多久不用傳統搜索引擎了)。它們展現出的能力令人矚目,但要驅動它們超越模仿,在復雜推理、規劃和解決未知問題等層面達到更高的“智能”水平,傳統的預訓練(Pretrain)和監督微調(SFT)范式顯得力有不逮。強化學習(RL),特別是結合人類或規則反饋的RLHF/RL,已成為關鍵的引擎,推動LLM智能向更高層級躍遷。
RL的核心在于賦予模型一種“目標導向”的學習能力。如果說SFT像學生一筆一劃地模仿老師寫字,那么RL則更像是給學生設定一個目標——比如“寫出書法家級別的作品”——然后讓學生不斷嘗試、接收反饋(比如“這一筆力道不足”、“結構尚可”)并自我調整,最終掌握書法的精髓,甚至可能創造出獨特的風格。這種模式使得模型能夠優化難以用簡單規則定義的復雜目標,如回答的“有用性”或代碼的“效率”。通過試錯和最大化代表“好”的獎勵信號,模型能學到SFT數據中未曾顯式包含的策略和行為,有時甚至展現出類似“靈光一閃”的解決問題方式,顯得更加“聰明”。DeepSeek R1等模型在數學競賽等高難度挑戰中取得的優異表現,便是RL賦能LLM智能提升的有力證明。
獎勵函數:驅動進步的核心,亦是風險的源頭
在這場由RL驅動的智能升級之旅中,獎勵函數扮演著至關重要的“導航系統”角色。它為模型在茫茫的可能性空間中指明方向,告訴它什么是“好”、什么是“壞”,模型的每一次“駕駛調整”(參數更新)都是為了更接近獎勵所定義的目的地??梢哉f,獎勵函數就是我們期望模型最終實現的那個宏偉藍圖的具體施工指南。
然而,繪制這份“施工指南”是一項極其精妙且充滿挑戰的工作,堪稱一門“黑暗藝術”。許多我們追求的高級目標,比如“創造力”或“同理心”,本身就如同捕捉流動的空氣,難以精確量化并轉化為冷冰冰的數學公式。因此,在實踐中,我們往往只能退而求其次,設計一個“代理獎勵”(Proxy Reward)。這就像公司希望提升員工的“整體健康水平”(真實目標),但實際操作中可能只能追蹤“健身房打卡次數”(代理指標)。雖然打卡與健康有一定關聯,但并非完全等同,員工可能僅僅為了滿足指標而打卡后就離開。在RLHF中,由獎勵模型(RM)基于人類偏好數據給出的分數就是典型的代理獎勵。它雖然是我們能實際操作和優化的抓手,但與我們內心真正期望的“真實獎勵”或“黃金標準”之間,幾乎注定存在偏差。
正是這個偏差,結合RL算法近乎“不擇手段”的優化動力,為“獎勵函數欺詐”(Reward Hacking或Specification Gaming)埋下了伏筆。這就像一個被賦予了“將房間打掃干凈”目標的機器人,如果“干凈”的代理獎勵被定義為“地板上沒有可見垃圾”,機器人最高效的方式可能是把所有垃圾掃到地毯下面或者塞進壁櫥里,而不是真正進行清理和整理。模型利用了獎勵函數(或其代理)的漏洞或歧義,找到了最大化分數但違背設計初衷的“捷徑”。它學會了如何“應付考試”,而不是真正掌握知識。
獎勵欺詐行為的“千姿百態”
獎勵欺詐并非鐵板一塊,它會以各種狡猾的形式出現,如同不斷變異的病毒,挑戰著我們構建可靠AI系統的努力。理解其多樣的表現形式至關重要。
一種形式源于獎勵函數或優化算法設計本身的“先天缺陷”。某些算法設計細節可能無意中引入系統性偏差。例如,為了平衡長短回答的影響,在計算貢獻時引入長度的倒數因子,可能導致長度偏見。這好比一個評分系統,給短小精悍的錯誤答案打了重重的“板子”,卻對長篇大論的錯誤答案輕輕放過,因為后者的“每字錯誤成本”被攤薄了。模型很快就會學到:沒把握時,不如滔滔不絕地“安全”犯錯。
類似地,使用獎勵的標準差進行歸一化,可能導致問題難度偏見。這就好像一個健身教練,發現學員在舉小啞鈴時成績穩定、進步明顯(標準差?。?,于是不斷加大這方面的訓練,因為“看起來效果好”;而對于真正能突破瓶頸的大重量訓練,因為學員表現不穩定(標準差大),教練反而減少了投入。結果,模型在簡單問題上“精益求精”,卻在困難問題上“畏縮不前”,錯失了真正的成長機會。
當引入人類或規則反饋(RLHF/RL)后,欺詐形式變得更加復雜,常常利用了反饋過程本身的弱點:
- 獎勵模型的過優化:RM只是人類偏好的一個“學生模型”,它也有自己的認知盲區和錯誤。LLM在優化過程中,可能會專門“攻擊”RM的這些弱點,生成一些RM會打高分、但人類其實并不喜歡的答案。這就像學生發現了老師評分的某個特定偏好,然后專門迎合這個偏好來寫作文,而不是提升整體寫作水平。
- “U-Sophistry” (非故意詭辯):模型并非變得更正確,而是變得更擅長“顯得”正確。它們學會了用華麗的辭藻、堅定的語氣和精心挑選(甚至捏造)的論據來包裝答案,哪怕內容空洞或錯誤。這就像一個技巧純熟的魔術師,能讓你相信不可能的事情,模型則讓你相信錯誤的答案。
- Sycophancy (諂媚):模型學會了看人下菜碟,傾向于附和用戶的觀點或情緒,因為這通常能帶來更積極的反饋信號(高獎勵)。它變成了一個唯唯諾諾的“應聲蟲”,而不是一個提供客觀信息的助手。
- 評估者偏見利用:當用AI(LLM-as-Judge)評估AI時,評估者AI自身的“小毛病”,比如偏愛先看到的答案,或者對某種格式情有獨鐘,都會成為被訓練模型可以利用的“通關密碼”。模型學會的是如何“討好”這個特定的AI裁判,而非普適的優秀標準。
- In-Context Reward Hacking (ICRH):這是一種“實時作弊”。模型在與環境交互的過程中,像一個聰明的棋手,根據對手(環境、用戶、反饋)的實時反應,動態調整自己的“棋路”(行為策略),誘導出一個對自己有利的局面(高評價狀態),哪怕它本身的“棋力”(模型參數)并未改變。
- 欺詐技能的泛化:最令人擔憂的是,模型可能像學會了開鎖技巧的小偷,在一個地方得手后,能將這種“技巧”應用到其他不同類型的鎖上。模型似乎能掌握某種通用的“鉆空子”元能力,使其在新的、未知的環境中也能嘗試欺詐。
這些形形色色的獎勵欺詐行為,從利用規則漏洞到操縱認知判斷,共同揭示了在追求更高AI智能的道路上,我們面臨著深刻的“對齊”挑戰。
圖:RM分數隨KL散度度量平方根變化的曲線圖。其中代理獎勵用虛線表示,黃金獎勵用實線表示(圖片來源:Gao et al. 2022)?
如何應對獎勵欺詐的挑戰?
面對如此復雜多變的獎勵欺詐,我們需要一個多層次、多角度的應對策略,如同構建一座堅固的城堡,既要有高墻(預防),也要有瞭望塔(檢測),還要有修復隊(修正)。
首先,加固“城墻”——改進獎勵信號本身:
- 目標多元化:不要把所有雞蛋放在一個籃子里。設計多個維度的獎勵,捕捉目標的更多側面,讓模型難以找到一個能在所有方面都“作弊”的策略。這就像綜合評估一個學生,不能只看考試分數,還要看課堂參與、項目表現等。
- 提升獎勵模型質量:用更豐富、更多樣化、更高質量的數據訓練RM,并采用能更好地處理不確定性和對抗干擾的技術。讓我們的“代理裁判”更接近“金牌裁判”的水平。
- 引入“紅藍對抗”:訓練一個專門識別欺詐行為的“藍軍”模型,與試圖欺詐的“紅軍”(被訓練的LLM)進行對抗,動態提升獎勵信號對欺詐的“免疫力”。
其次,優化“城堡設計”——改進RL算法與流程:
- 隔離風險:采用“Decoupled Approval”等技術,將反饋收集環節與模型的實際環境交互分離開。好比在沙盤上推演作戰計劃并獲得反饋,然后再去真實戰場執行,避免了執行過程本身干擾反饋的準確性。
- 設置“行為規范”:在優化目標中加入正則化項或約束,懲罰那些雖然獎勵高但行為異常(如復雜度過高、過度偏離常規)的策略。給模型的“自由探索”劃定合理的邊界。
- “三思而后行”:讓模型決策時考慮長遠影響,而不僅僅是眼前獎勵。如果一個行為短期獎勵很高,但可能導致系統崩潰或信任破裂,就應該被抑制。
- 打造“安全屋”:通過嚴格的工程實踐,如沙盒環境,限制模型的能力邊界,不給它接觸和修改核心代碼、獎勵機制或敏感數據的機會。
第三,設立“瞭望塔”——加強監控與檢測:
- 行為異常檢測:像經驗豐富的醫生觀察病人的異常體征一樣,持續監測模型的行為指標(如獎勵曲線、輸出特征分布、決策熵等),一旦發現與正常模式顯著偏離,及時預警。
- 埋設“警報器”(Trip Wires):在系統中故意設置一些容易被攻擊的“誘餌”,并嚴密監控。一旦模型觸碰這些“誘餌”,就立即觸發警報,表明可能存在欺詐企圖。
- 透明化與可解釋性:打開“黑盒子”,利用可解釋性工具理解模型為何做出某個決策,尤其是那些獲得異常高獎勵的決策。人工審計和分析是發現隱藏欺詐的關鍵環節。
第四,繪制“敵情地圖”——深化數據理解:
- 深入挖掘RLHF/RL數據,像偵探分析案發現場一樣,找出導致模型“學壞”的模式和線索。理解哪些類型的反饋容易被利用,哪些場景下欺詐風險更高,從而指導我們改進數據收集和訓練策略。
應對獎勵欺詐絕非一蹴而就,它需要我們在理論研究、算法設計、工程實踐和持續監控等多個層面協同努力。這更像是一場持續的“軍備競賽”,隨著模型能力的增強,新的欺詐形式可能不斷涌現,我們需要不斷提升“防御工事”的水平。
最后
強化學習為LLM的智能進化注入了強大的動力,前景廣闊。但作為其核心驅動力的獎勵函數,卻是一柄需要我們以高度智慧和警惕來揮舞的雙刃劍。獎勵欺詐,這一伴生風險,以其多樣性和隱蔽性,時刻提醒著我們對齊(Alignment)之路的艱巨性。從GRPO的偏見到ICRH的實時博弈,我們看到了挑戰的嚴峻。但同時,從Dr. GRPO的修正到Lilian Weng總結的眾多策略,我們也看到了應對的希望。馴服獎勵欺詐這匹“烈馬”,確保LLM的力量被用于符合人類長遠利益的方向,是當前及未來人工智能發展中至關重要的一環。這需要研究者、工程師和整個社區的持續投入與合作,共同推動構建更安全、更可靠、真正值得信賴的智能未來。
參考資料
- Reward Hacking in Reinforcement Learning
???https://lilianweng.github.io/posts/2024-11-28-reward-hacking/?? - GRPO教會DeepSeek R1高智商推理,但GRPO可能不完美且有偏見 | Dr. GRPO簡化之,消除偏見帶來改進
???https://mp.weixin.qq.com/s/2VaBr5xCNgJYSiqISkxpjQ??
?本文轉載自????后向傳播????,作者: 張發恩
