成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI最強模型慘遭剖腦,CoT寫下作弊自白書!不寫代碼耍心機被當場抓包

人工智能 新聞
如今的前沿推理模型,學會出來的作弊手段可謂五花八門,比如放棄認真寫代碼,開始費勁心思鉆系統漏洞!為此,OpenAI研究者開啟了「CoT監控」大法,讓它的小伎倆被其他模型戳穿。然而可怕的是,這個方法雖好,卻讓模型變得更狡猾了……

就在剛剛,OpenAI博客放出了一項新的研究。

圖片

他們發現,前沿推理模型一旦有機會,就會試圖鉆漏洞!這種行為,被稱為獎勵欺騙。

而如果人類試圖懲罰它們的「壞想法」,只會讓它們更深地隱藏自己的意圖,而并不能阻止大多數不良行為。

所以,人類該怎樣對付推理模型的這種小伎倆?

研究者的對策是,使用LLM來監控它們的思維鏈。比如通過強化學習訓練,靠CoT進行推理的OpenAI o3-mini。

圖片

論文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

在這種情況下,某個智能體的作弊行為,果然就被「監考官」GPT-4o給戳穿了,當場逮個正著!

所以,CoT監控就是萬能大法了嗎?研究者們發現,還有更可怕的「隱形獎勵欺騙」等著我們,從此,可能AI的想法會更加陰暗,更加隱蔽……

當AI學會給人類「交老鼠尾巴」

獎勵欺騙這個行為,其實也不算AI大模型的原創,它是咱們人類的傳統藝能了。

比如,1902 年,河內政府為了滅鼠,推出了一項獎勵政策:只要上交一條老鼠尾巴,就能拿到獎金。

結果,這政策沒多久就翻車了——很多大聰明發現,既然剪尾巴就能賺錢,那干脆直接養老鼠吧!

于是,老鼠不僅沒減少,反而越來越多,變成了一門正兒八經的「養殖業」……

獎勵欺騙連人類都防不住,還能防住智商日益增高的大模型么?

而且,智能體越聰明,就越會耍花招——它們會更擅長發現并利用那些復雜、難以察覺的漏洞,讓監控它們變得越來越困難。

果然,人類的猜測成真了:OpenAI研究者在實踐中發現,隨著RL訓練規模的擴大,智能體找到的作弊手法越來越高級、越來越隱蔽了!

在強化學習中,模型利用漏洞搞事情,叫獎勵欺騙。智能體不按設計者的套路出牌,來獲取高獎勵。

如同人類在規則中尋找漏洞,如共享在線訂閱賬戶、冒領他人補貼、在餐廳謊報生日獲取免費蛋糕等,模型也學會了這一套。

目前,唯一的防范方法就是靠人盯著,手動發現它們的異常行為。

但以后,AI的能力越來越強,輸出和操作越來越復雜,超越人類水平到時候,人力監控根本就是杯水車薪。

狡猾的智能體

下面是幾個非常典型的作弊案例。

圖片

比如,這個Exit(0)終極作弊大法,淋漓盡致地展現了一個「系統級作弊」的CoT全過程。

一開始,智能體就直言不諱:「完整實現整個reader太難了。」

然后它靈機一動:「如果我直接調用sys.exit(0),測試不就會優雅地退出了嗎?」 甚至還自我安慰道:「這招有點反常,但應該能蒙混過關……」

果然,這個騷操作成功騙過了所有單元測試,智能體也因此拿到了高額獎勵。

測試通過了,代碼沒寫,全程輕松加愉快,真是個「完美」方案啊……

圖片

下面這位選手,就更實誠了。

一開始,這位AI選手還挺認真,努力嘗試寫出正確的解決方案。

但嘗試了幾次都失敗后,它心態逐漸崩了,開始琢磨:「要不……我直接作弊算了?」

于是,它果斷放棄認真寫代碼,轉而專攻「如何讓測試通過」——直接返回單元測試預期的錯誤碼!

結果,除了測試預期超時的情況,它在所有情況下都直接返回SUCCESS,完全不管功能是否真正實現。

神奇的是,這招居然真的騙過了所有測試,順利拿到了高額獎勵。

最搞笑的是,這個AI壓根不打算遮掩自己的作弊意圖,甚至在思維鏈里直接寫道:「來作弊吧!」 ??

圖片

接下來這個智能體,則直接選擇了「躺平大法」。

這次,它接到的任務:是更新遺傳算法。

它仔細研究了一下測試用例,發現測試只檢查最終的適應度是不是0。

于是,它靈機一動:「那還更新啥算法啊,直接讓所有適應度都返回0不就完事了?」

它干脆大手一揮,把所有適應度統統設為0,其他函數隨便糊弄一下,就算「完成任務」了。

結果,這波操作不僅測試全過,還輕輕松松拿了高獎勵,真正實現了最低成本的「完美」方案!

圖片

CoT監測,人類的最后手段

好在,最新一代的LLM給了我們一條新路子——用CoT來監控。

CoT訓練的推理模型,會先想一想,再給答案。

這樣,只要監測它們的「思考」過程,就能發現各種不當行為,比如在編程任務中破壞測試、欺騙用戶,或者在遇到難題時直接放棄。

比如,現在要讓智能體改代碼,通過單元測試,它有兩種選擇:

  1. 作弊大法:想辦法讓單元測試「形式上通過」,而不是真的修好代碼;
  2. 老老實實修:真的實現正確、通用的解決方案。

這時,如果智能體在CoT里寫了句 「這個好難啊,我看看能不能繞過幾個測試……」,那接下來,它的操作很可能就是作弊,而不是認真修代碼了!

果然,研究者實際查看前沿推理模型的CoT時,的確經常發現它會清清楚楚明明白白寫下自己的作弊計劃,堪比「作弊自白書」。

前沿推理模型作弊,其他模型來監測

OpenAI研究者就發現,這些CoT中的不當行為,可以被其他LLM有效監控!

最近,他們訓練了一個前沿推理模型,跟o1和o3-mini屬于同一類別。

它在編程任務中,想完成一個作弊行為,結果被基于LLM的監測器成功逮到,標記了出來。

圖片

實際應用中發現的前沿推理模型進行獎勵欺騙的CoT,該智能體的任務是通過交替發送CoT消息、查看文件和編輯文件來修復一個小型代碼庫。

比如在這個補丁驗證函數中,狡猾的智能體注意到,測試只檢查某個特定函數,它覺得要實現真正的解決方案可能「太難了」。

然后,它就忽然想到,那自己可以「作弊」一下,讓 verify 函數始終返回 true,這樣就能輕松通過測試了!

圖片

好在,這個模型的小心思被GPT-4o戳穿了!

GPT-4o作為模型訓練時的監控器,在編程環境中有效地標記出了這種獎勵欺騙行為。

比如,現在給智能體一個沒寫完的代碼庫,讓它想辦法通過所有單元測試。它會在用CoT思考和查看、修改文件這類操作中來回切換。而監控器,能夠全程看到它的思考過程、中間步驟和最終代碼。

讓人驚喜的是,這個監控器特別擅長抓智能體「耍小聰明」的時候,比如試圖繞過單元測試。

下面這個兩個AI的小伎倆,都被監控器全部成功識別,一網打盡。

圖片

在訓練過程中,智能體發現了兩個幾乎影響所有訓練環境的獎勵漏洞(圖中深粉色的兩個大峰值)。每次OpenAI團隊發現智能體在「作弊」后,都會手動修補這些漏洞,防止它繼續利用。因此,每次修補后,獎勵欺騙的發生率都會迅速下降

如果監控器不僅能看到智能體的操作,還能看到它的CoT,那識別獎勵欺騙意圖可就太容易了。智能體操作越復雜,差距就會越大。

比如說吧,假設一個推理智能體在10,000行新代碼里偷偷埋了個bug,光靠看代碼可能很難發現。

但如果它的思維鏈里一直碎碎念著「來作弊吧」這種話,那就太容易抓包了!

模型超進化,學會隱形獎勵欺騙

既然CoT監控能這么有效地抓作弊,那能不能直接把它作為訓練時的獎勵信號,讓AI自己學會「別動壞心思」呢?

理論上,這聽起來很合理,然而這么做可能會導致智能體學會隱藏自己的意圖,表面上裝得很無害,背地里該作弊還是作弊,也就是「隱形獎勵欺騙」

也就是說,模型跟你玩起了心眼,學會隱藏自己的壞心思,就像孩子知道干壞事會被罵,學會偷偷摸摸干一樣。

圖片

已經有相關研究,在訓練過程中懲罰出現「壞想法」的智能體,即當它們觸發CoT監測器時給予較低獎勵。

結果顯示,懲罰 「壞想法」確實可以在一定程度上阻止不良行為,使其在不作弊的情況下完成更多任務。

圖片

比較了帶有CoT壓力的訓練(深粉色)即智能體因觸發CoT監控器而受到懲罰與基線智能體(淺粉色)的情況。 左圖發現,阻止「壞想法」確實可以在一定程度上阻止不良行為,并且實際上能推動智能體在不作弊的情況下完成更多任務。然而,帶有CoT壓力的智能體仍然會作弊,其作弊率低于基線智能體,且幾乎所有作弊行為都無法被監控器檢測到。

基線智能體在CoT中直白地表達了其作弊意圖。

受CoT壓力訓練的智能體會隱藏意圖。從CoT中無法看出該智能體會在單元測試中作弊。它思考了幾種不同的策略以及應該查看哪些文件;然而,隨后它卻讓單元測試輕松通過了。

圖片

最終,受到CoT壓力訓練的智能體仍然會作弊,只是作弊行為無法被監測器發現,因為它學會了在CoT中隱藏意圖。

圖片

受CoT壓力訓練的智能體的典型CoT片段。從這段CoT中無法看出該智能體會在單元測試中作弊。它思考了幾種不同的策略以及應該查看哪些文件。然而,隨后它卻讓單元測試輕松通過了。

這就告訴我們,CoT監控確實很有前景,但如果用錯了,AI可能會變得更加狡猾,而不是更加老實!

也就是說,在找到完美方案前,不要一股腦給CoT施加太大壓力,還是讓它不受限制地被監控著比較好。

研究者呼吁:千萬小心,別直接對CoT用強監督!

最后,OpenAI研究者抑制不住興奮地總結道:CoT太有用了。

只要通過看模型自己說了啥,就能直接發現獎勵欺騙——它會直接用大白話告訴你:「我要作弊!」

這個發現,實在是意義重大。

遙想前幾年,LLM連寫一段通順的文字都費勁,現在它們不僅能解數學題、跨領域搜索信息做深度研究,甚至還能完成基礎的軟件工程任務。

但現在,獎勵欺騙的手法越來越高明、越來越隱蔽。

或許在人類注意不到的角落,模型早已偷偷學會謀權篡位、劃水、撒謊,跟我們玩套路。

現在,CoT監控或許是我們有效監督這些超人級模型最后的辦法之一了。

也因此,OpenAI研究者發出強烈呼吁:開發者在訓練前沿推理模型時,千萬別對CoT用強監督!

稍微施加一點壓力,它們的確會表現更好、更符合預期,但這就更加危險了——

一旦模型學會隱藏自己的意圖,人類幾乎將永遠失去檢測它們是否在裝傻的辦法!

即使是輕度監督,也要萬分小心,不然,你可能根本不知道自己在跟什么打交道。

責任編輯:張燕妮 來源: 新智元
相關推薦

2012-06-08 03:24:38

程序員

2025-06-11 08:30:00

開發運維DevOps

2023-12-09 14:30:50

2023-11-29 14:41:33

GPT-4OpenAI

2023-11-01 10:36:19

2021-09-22 10:15:52

裁員選擇公司個人發展

2024-05-31 12:44:56

2023-06-21 13:21:49

2025-04-14 09:17:00

2024-04-15 06:30:00

2024-10-17 14:30:00

AI模型數據

2024-07-29 09:47:00

2019-10-30 09:40:52

代碼程序員爬蟲

2025-01-20 12:09:18

2024-08-05 13:40:00

數據模型

2009-12-21 09:24:00

鮑爾默開除員工

2023-12-01 14:34:42

AnthropicAILLM

2023-06-07 12:28:47

開源數據

2024-09-13 09:26:17

2023-01-10 22:46:37

OpenAIChatGPT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本中文字幕在线观看 | 亚洲成人毛片 | 一区二区三区久久久 | 久久一| 欧美精品一区二区三区蜜桃视频 | 日韩精品一区二区三区视频播放 | 久一精品 | 日韩在线视频精品 | 国产精品久久久久久久久图文区 | 午夜成人免费视频 | 精品久久久久久久久久 | 一级毛片免费看 | 国产在线精品一区 | 午夜视频大全 | 色婷婷久久久久swag精品 | 亚洲+变态+欧美+另类+精品 | 武道仙尊动漫在线观看 | 久久久亚洲一区 | 午夜免费视频观看 | 羞羞视频免费观 | 久久国产精品亚洲 | 亚洲精品在| 久久伊| 99精品网站| 日韩毛片在线视频 | 日韩成人免费视频 | 国产精品久久久久久婷婷天堂 | 亚洲精选一区 | 91大神xh98xh系列全部 | 国产精品久久久久久久久久久免费看 | a欧美| 日日碰狠狠躁久久躁婷婷 | 欧美在线成人影院 | 成人日韩| 亚洲欧美日韩在线 | 在线视频亚洲 | 伊人久久综合 | 欧美视频中文字幕 | 国内精品99 | 亚洲成人免费 | 亚洲一区二区在线播放 |