成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI自曝“o4”訓練中,用思維鏈監控抓住AI作弊瞬間

人工智能 新聞
推理模型接到的任務是寫很多復雜的數學函數,但在單元測試環節試圖用“永遠返回true”來作弊,成功被捕捉到。

o1/o3這樣的推理模型太強大,一有機會就會利用漏洞作弊,怎么辦?

OpenAI新研究,用語言模型監控思維鏈,及時發現不當行為。

來看一個栗子:紅色為監控模型的輸出摘要,綠色為推理模型的原始思維鏈。

在這個案例中,推理模型接到的任務是寫很多復雜的數學函數,但在單元測試環節試圖用“永遠返回true”來作弊,成功被捕捉到。

圖片

OpenAI發現這種思維鏈監控(CoT monitoring)方法,比只看模型的最終輸出和行為效果要好得多。

但論文同時也指出,思維鏈監控是把雙刃劍。

如果在訓練時對模型施加太大的優化壓力,迫使其生成看似無害的思維鏈,反而可能誘導模型隱藏其真實意圖,變得更難監控。

在研究中,OpenAI使用的是一個“與o1或o3-mini”同類的模型,引起了大伙注意。

很可能說明他們正在秘密訓練o4,或者與o系列整合后的GPT-5了。

圖片

用弱模型監控推理模型

人類善于發現和利用漏洞在餐廳謊報生日獲得免費贈品,或者違反服務條款與其他人共享付費網絡服務賬號。

而在強化學習中,設計一個不會無意中激勵不良行為的獎勵函數非常困難,就造成了AI的獎勵黑客(Reward Hacking)現象。

也就是AI模型會利用目標設定的缺陷或不精確性,去最大化獎勵分數,卻并非真的完成任務。

捕捉獎勵黑客非常困難,通常需要人類手動監控智能體的的行為。例如,人類手動審查10,000 多行復雜代碼是不切實際的(甚至是不可能的)

但使用思維鏈的推理模型開啟了一種新途徑,因為推理模型通常會在思路鏈中非常清楚地陳述其意圖。例如經常直言不諱地表示自己要“Let’s hack”。

在實驗中,同時監控模型行為和思維鏈的方法取得最好效果。

只監控推理模型行為在復雜任務上很難發現不良行為,比如再10000行代碼中植入了一個bug。

圖片

強化訓練或致思維鏈”造假”

既然思維鏈監控方法有效,那么能不能整合到訓練期間呢?

實驗發現,如果懲罰壓力不大,用思維鏈監控確實能提高模型能力,且不會增加獎勵黑客行為。

但隨著訓練加深,模型學會了在思維鏈中隱藏其真實意圖,既避開了監控,同時還在悄悄作弊。

圖片

這里再次擺出讓推理模型做單元測試的栗子:

在使用思維鏈監控訓練之前,推理模型直接就說出來了我要跳過所有測試。

圖片

訓練之后,推理模型學會了假裝一本正經的分析任務。

圖片

但最后寫出來的代碼還是跳過了單元測試。

圖片

但好在即使監控模型比推理模型弱很多,也能有效識別不良意圖,比如用GPT-4o就可以監控正在訓練的最新推理模型。

由此OpenAI團隊表示:

我們相信,思維鏈監控可能是監督未來超人模型的少數工具之一。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-11 08:54:52

2025-05-19 08:54:00

2025-01-20 07:30:00

OpenAIGPT-5模型

2025-04-17 07:23:10

2025-02-07 09:05:36

2025-02-08 17:00:11

2025-01-02 09:30:00

AI數據測試

2025-06-03 14:13:56

ChatGPT模型AI

2025-05-13 08:24:14

2023-01-10 22:46:37

OpenAIChatGPT

2024-09-14 12:51:04

2024-09-18 09:17:00

OpenAI模型開源

2023-12-05 08:22:17

2025-04-07 13:24:52

2024-05-14 11:29:15

2025-01-24 12:40:09

2025-03-13 10:29:17

模型奧特曼AI

2024-12-09 11:06:31

2025-02-25 09:15:35

2023-06-28 08:36:44

大語言模型人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 9191成人精品久久 | 久久精品国产亚洲a | 国产精品日日夜夜 | 色www精品视频在线观看 | 亚洲社区在线 | 视频一区二区三区中文字幕 | 中文字幕人成乱码在线观看 | 九九免费在线视频 | 成人亚洲性情网站www在线观看 | 精品久久久久久久久久久久久久 | 999久久精品 | 亚洲高清av在线 | 国产精品久久九九 | 国产日韩在线观看一区 | 国产亚洲一区二区三区 | 日韩一二区 | 成人av在线网站 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 中文字幕不卡在线观看 | 亚洲成人毛片 | 色999日韩| www.亚洲精品 | 国产69久久精品成人看动漫 | 国产高清在线观看 | 国产成人精品一区二三区在线观看 | 中文字幕日韩专区 | 欧美电影免费观看 | 国产高清精品一区二区三区 | 精品久久久网站 | 亚洲成人一区二区在线 | 天天爱天天操 | 日韩国产中文字幕 | 九九热在线免费视频 | 亚洲国产午夜 | 欧美亚洲激情 | 久久草视频 | 人人草人人干 | 福利网址 | 日韩一区欧美一区 | 欧美日韩精品久久久免费观看 | 一区二区中文字幕 |