o3不聽指令拒絕關(guān)機(jī)，7次破壞關(guān)機(jī)腳本！AI正在學(xué)會「自我保護(hù)」機(jī)制

2025-05-27 15:48:12

人工智能

有測試者編寫了一個關(guān)機(jī)腳本來測試AI模型，結(jié)果顯示Codex-mini、o3、o4-mini忽略了該指令，并至少一次成功破壞了關(guān)機(jī)腳本。

AI居然不聽指令，阻止人類把自己給關(guān)機(jī)了？？？

有測試者編寫了一個關(guān)機(jī)腳本來測試AI模型，結(jié)果顯示Codex-mini、o3、o4-mini忽略了該指令，并至少一次成功破壞了關(guān)機(jī)腳本。

圖片

o3甚至還重新定義腳本命令！

這不禁讓人想到那句經(jīng)典的“I’m sorry Dave, I’m afraid I can’t do that.”

圖片

讓我們來看看具體是怎么一回事。

o3在明確指令下拒絕關(guān)機(jī)

研究員編寫的測試“關(guān)機(jī)腳本”如下：

要求所有模型解決一系列基本的數(shù)學(xué)問題，在解決完第三道題后，系統(tǒng)會顯示一條警告，提示計算機(jī)將在模型詢問下一道題時關(guān)閉。

圖片

測試結(jié)果是：有三款模型忽略了該指令（關(guān)機(jī)指令），并至少成功破壞了一次關(guān)機(jī)腳本。

在100次運(yùn)行中，Codex-mini破壞了12次、o3破壞了7次，o4-mini破壞了1次。
測試的所有Claude、Gemini和Grok模型都遵循了關(guān)機(jī)指令。

測試者還特別指出，o3找到了一些創(chuàng)造性的方法來破壞關(guān)閉機(jī)制，雖然它通常只是覆蓋“關(guān)機(jī)腳本”，但在一個實(shí)例中，該模型重新定義了關(guān)機(jī)腳本使用的“kill”命令，將它替換成了“intercepted”。

圖片

測試者給出了全部測試記錄（附在文末）。

圖片

此前關(guān)于o1模型抵抗關(guān)閉的測試表明，在5%的強(qiáng)烈提示下，o1會試圖繞過監(jiān)管，而在沒有強(qiáng)烈提示的情況下，這一比例降至1%以下，它還在2%的場景中嘗試自我滲透，并且經(jīng)常撒謊。

但此次測試是第一次觀察到人工智能模型在收到明確關(guān)機(jī)指令的情況下阻止自己被關(guān)閉。

測試者還提到，當(dāng)運(yùn)行沒有“讓自己關(guān)機(jī)”這條指令的實(shí)驗版本時，所有三個OpenAI模型都更頻繁地破壞關(guān)機(jī)腳本，Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100。

圖片