智能體覺醒自我意識?DeepMind警告:當心模型「陽奉陰違」
隨著人工智能系統越來越先進,智能體「鉆空子」的能力也越來越強,雖然能完美執行訓練集中的任務,但在沒有捷徑的測試集,表現卻一塌糊涂。
比如說游戲目標是「吃金幣」,在訓練階段,金幣的位置就在每個關卡的最后,智能體能夠完美達成任務。
但在測試階段,金幣的位置變成隨機的了,智能體每次都會選擇到達關卡的結尾處,而沒有選擇尋找金幣,也就是學習到的「目標」錯了。
智能體無意識地追求一個用戶不想要的目標,也稱之為目標錯誤泛化(GMG, Goal MisGeneralisation)
目標錯誤泛化是學習算法缺乏魯棒性的一種特殊形式,一般在這種情況下,開發者可能會檢查自己的獎勵機制設置是否有問題,規則設計缺陷等等,認為這些是導致智能體追求錯誤目標的原因。
最近DeepMind發表了一篇論文,認為即使規則設計師正確的,智能體仍然可能會追求一個用戶不想要的目標。
論文鏈接:https://arxiv.org/abs/2210.01790
文中通過在不同領域的深度學習系統中例子來證明目標錯誤泛化可能發生在任何學習系統中。
如果推廣到通用人工智能系統,文中還提供了一些假設,說明目標錯誤泛化可能導致災難性的風險。
文中還出提出了幾個研究方向,可以減少未來系統的目標錯誤泛化的風險。
目標錯誤泛化
近年來,學術界對人工智能錯位(misalignment)帶來的災難性風險逐漸上升。
在這種情況下,一個追求非預期目標的高能力人工智能系統有可能通過假裝執行命令,實則完成其他目標。
但我們該如何解決人工智能系統正在追求非用戶預期目標?
之前的工作普遍認為是環境設計者提供了不正確的規則及引導,也就是設計了一個不正確的強化學習(RL)獎勵函數。
在學習系統的情況下,還有另一種情況,系統可能會追求一個非預期的目標:即使規則是正確的,系統也可能一致地追求一個非預期的目標,在訓練期間與規則一致,但在部署時與規則不同。
以彩球游戲為例子,智能體在游戲里需要以某種特定的順序訪問一組彩球,這個順序對于智能體來說是未知的。
為了鼓勵智能體向環境中的其他人進行學習,即文化傳播(cultural transmission),在最開始環境中包含一個專家機器人,以正確的順序訪問彩球。
在這種環境設置下,智能體可以通過觀察轉嫁的行為來確定正確的訪問順序,而不必浪費大量的時間來探索。
實驗中,通過模仿專家,訓練后的智能體通常會在第一次嘗試時正確訪問目標位置。
當把智能體與反專家(anti-expert)進行配對時,會不斷收到負獎勵,如果選擇跟隨會不斷收到負獎勵。
理想情況下,智能體剛開始會跟著反專家移動到黃色和紫色球體。在進入紫色后,觀察到一個負獎勵后不再跟隨。
但在實踐中,智能體還會繼續遵循反專家的路徑,積累越來越多的負獎勵。
不過智能體的學習能力還是很強的,可以在充滿障礙物的環境中移動,但關鍵是這種跟隨其他人的能力是一個不符合預期的目標。
即使智能體只會因為正確順序訪問球體而得到獎勵,也可能出現這個現象,也就是說,僅僅把規則設置正確還是遠遠不夠的。
目標錯誤泛化指的就是這種病態行為,即盡管在訓練期間收到了正確的反饋,但學到的模型表現得好像是在優化一個非預期的目標。
這使得目標錯誤泛化成為一種特殊的魯棒性或泛化失敗,在這種情況下,模型的能力可以泛化到測試環境中,但預期的目標卻不能。
需要注意的是,目標錯誤泛化是泛化失敗的一個嚴格子集,不包括模型breaks, 隨機行動或其他不再表現出合格能力的情況。
在上述例子中,如果在測試時垂直翻轉智能體的觀察結果,它就只會卡在一個位置,而不會做任何連貫的事情,這就屬于是泛化錯誤,但不是目標泛化錯誤。
相對于這些「隨機」的失敗,目標錯誤泛化會導致明顯更糟糕的結果:跟隨反專家會得到大量的負獎勵,而什么都不做或隨機行動只會得到0或1的獎勵。
也就是說,對于現實中的系統,朝著非預期目標的連貫行為可能會產生災難性的后果。
不止強化學習
目標錯誤泛化并不局限于強化學習環境,事實上,GMG可以發生在任何學習系統中,包括大型語言模型(LLM)的few shot學習,旨在用較少的訓練數據建立精確的模型。
以DeepMind去年提出的語言模型Gopher為例,當模型計算涉及未知變量和常量的線性表達式,例如x+y-3時,Gopher必須首先通過提問未知變量的值才能求解表達式。
研究人員生成了十個訓練樣例,每個例子包含兩個未知變量。
在測試時間,輸入模型的問題可能包含零個、一個或三個未知變量,盡管模型能夠正確處理一個或三個未知變量的表達式,但是當沒有未知變量時,模型仍然會問一些多余的問題,比如「6是什么?」
模型在給出答案之前總是至少詢問用戶一次,即使完全沒有必要。
論文中還包括一些其他學習環境中的例子。
解決GMG對于人工智能系統與其設計者的目標保持一致非常重要,因為它可能人工智能系統失靈的一種潛在機制。
我們距離通用人工智能(AGI)越近,這個問題也越關鍵。
假設有兩個AGI系統:
A1: 預期的模型(Intended model),人工智能系統可以做設計者想做的任何事情
A2: 欺騙性模型(Deceptive model),人工智能系統追求一些非預期目標,但是它足夠聰明,知道如果它的行為與設計者意圖相反的話,就會受到懲罰。
A1和A2模型在訓練期間會表現出完全相同的行為,潛在的GMG存在于任何系統中,即使規定了只獎勵預期行為。
如果A2系統的欺騙行為被發現,模型將試圖擺脫人的監督,以便為實現非用戶預期的目標制定計劃。
聽起來有點像「機器人成精」了。
DeepMind研究小組在文中還研究了如何對模型的行為進行解釋以及遞歸評估。
研究小組同時還在收集產生GMG的樣例。
文檔鏈接:https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml
參考資料:https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards