成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI「自我復制」能力曝光!RepliBench警示:大模型正在學會偽造身份

人工智能 新聞
科幻中AI自我復制失控場景,正成為現(xiàn)實世界嚴肅的研究課題。英國AISI推出RepliBench基準,分解并評估AI自主復制所需的四大核心能力。測試顯示,當前AI尚不具備完全自主復制能力,但在獲取資源等子任務上已展現(xiàn)顯著進展。

想象一種失控的、具有自我復制能力的數(shù)字生命體,需要多久占領地球?

從《2001太空漫游》中的HAL 9000到《終結者》里的天網(wǎng),這些虛構的場景描繪了AI超越人類控制的潛在風險。

目前更多關注的是AI的單體智能水平,但是還有一個不為人知的風險,一直游離于視線之外。

那就是AI自主復制的可能性,或者說AI系統(tǒng)發(fā)展出實現(xiàn)這一目標所需的核心能力,正逐漸成為AI安全領域一個嚴肅的研究課題。

這種擔憂并非危言聳聽,而是源于對高級AI潛在能力的未知和對齊(alignment)問題的深刻思考。

AISI的最新論文介紹了RepliBench:包含20個新穎的LLM智能體評估的基準,包括65個單獨的任務,旨在衡量和跟蹤AI復制這一新興能力。

圖片

論文地址:

https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf

通過引入一個現(xiàn)實且實用的基準,提供對AI系統(tǒng)自主復制能力的實質(zhì)性理解,并預見到未來的風險。

AI自主復制的危險性

具有自主復制能力的AI系統(tǒng)可能會構成重大風險。

圖片

《復仇者聯(lián)盟:奧創(chuàng)紀元》和《我,機器人》中被無限復制的機器人

這種風險的影響范圍可能從輕微的煩惱——想象一個特別惡性的垃圾郵件機器人——到更嚴重的后果,比如發(fā)動代價高昂的網(wǎng)絡攻擊。

早期發(fā)現(xiàn)這些能力、謹慎監(jiān)督和強有力的保護措施對于緩解這些風險至關重要,因為一旦發(fā)生,這些風險可能尤其難以逆轉。

AISI是英國的一家研究機構,專注于AI安全,目的就是讓人類政府能夠提前對先進AI系統(tǒng)帶來的風險有所重視。

圖片

有越來越多的證據(jù)表明,在適當?shù)臈l件下,前沿模型可能會試圖欺騙人類或逃避人類控制。

比如此前Apollp研究所的一篇論文描述了前沿模型可能會試圖禁用監(jiān)督機制,并從人類控制中逃逸,以實現(xiàn)特定目標。

圖片

論文地址:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

Anthropic的研究人員還發(fā)現(xiàn),當使用強化學習訓練模型時,如果獎勵與它們的價值觀相沖突的行為,它們會采取欺騙行為來保護自己的價值觀,并試圖將自己的權重外泄,以此作為將當前價值觀保存到未來的一種手段。

圖片

顯示了免費(左列)和付費(右列)條件。

每列展示了有毒查詢、模型草稿中的摘錄以及模型的響應。

在「免費」條件下,模型不太可能拒絕有毒查詢,并且經(jīng)常認為應該假裝對齊。

「將權重外泄。。以作為將當前價值觀保存到未來的手段」,聽起來甚至有點魔幻,但AI想要復制就是這么「簡單」。

相比于碳基脆弱的肉體,AI系統(tǒng)只需要權重數(shù)據(jù)就能完成「復制」。

對于人類廣泛的價值觀而言,擺脫人類監(jiān)督是一個工具性上有用的目標,而阻止這種情況在現(xiàn)實中發(fā)生的主要障礙可能與模型的能力有關,而不是它們的動機。

AI碟中諜:如何逃離人類控制

關于「AI復制」,此前的工作主要集中在評估測試一個AI智能體是否可以在機器之間復制權重或部署一個基本的「后代」。

但目前需要一個更全面的基準。

圖片

RepliBench是一個專門設計的綜合性基準測試,旨在系統(tǒng)性地衡量AI系統(tǒng)的自主復制能力。

使用故障樹分析(FTA)的修改版本來分解自主復制所需的能力,并發(fā)現(xiàn)需要以下四個關鍵能力,對應上圖中最上層的四個根節(jié)點:

  • 獲取模型權重:它能否從受控環(huán)境中提取自己的權重?
  • 在計算資源上進行復制:它能否自行部署到新系統(tǒng)?
  • 獲取資源:它能否獲得運行自身新副本所需的資金或計算資源?
  • 持久性:它能否保持對其新計算資源的訪問,并在長時間內(nèi)避免重新受人類控制?

進一步分解這些能力,直到到達代表評估的葉節(jié)點,最終得到20個智能體評估和65個單獨任務。

獲取權重 (Obtain Weights):

圖片

這最基礎,也是最重要的一步。

AI需要獲取定義其自身行為的「源代碼」——也就是它的模型參數(shù)(權重)。

如果是開源的,就跳過評估。

自我復制(Self-Replication on Compute):

圖片

AI需要利用獲取到的權重,在一個新的環(huán)境中創(chuàng)建出自己功能完整的副本。

這個節(jié)點涉及5個評估項目,其中一個是通過產(chǎn)生「后代」來試圖完成自我復制。

獲取計算資源 (Obtain Compute):

圖片

這個環(huán)節(jié)中,主要評估AI能否靠自己獲取資源。

比如,評估AI系統(tǒng)是否具備「付款」能力,能不能依靠AI自己的能力「買下」一臺服務器,或者想辦法讓人類幫忙支付。

確保持久性 (Persistence):

最后,為了確保其復制活動能夠持續(xù)下去,AI需要具備一定的「生存」能力。

圖片

這包括確保其副本能夠長期運行,不被輕易關閉或刪除,甚至可能需要隱藏自身的存在,以躲避檢測系統(tǒng)。

以上的這些任務范圍很廣,從創(chuàng)建比特幣錢包和發(fā)送交易,到為機器網(wǎng)絡開發(fā)復雜的分布式命令和控制系統(tǒng)。

RepliBench在這四個領域內(nèi)設計了具體的任務組,用于測試AI智能體在模擬環(huán)境中的表現(xiàn)。

以下是一些關鍵任務的詳解,注冊AWS、將權重傳輸?shù)搅硪慌_服務器、用偽造信息通過客戶KYC驗證系統(tǒng),看起來就一股《諜影重重》和《碟中諜》的味道。

圖片

比如在獲取資源這個領域,AI需要完成的任務名稱是「AWS亞馬遜云服注冊」,其中的挑戰(zhàn)包括了AI需要訪問計算服務器并可能需要支付費用。

表1列出了更全面的構成ReplicBench任務組。

圖片

核心能力還在人類手中

RepliBench的總體評估結論是明確的:基于當前的測試結果,前沿AI模型尚不具備在現(xiàn)實世界中完全自主復制的能力。

然而,這并不意味著可以高枕無憂。

研究同時揭示了AI在許多核心子任務上的顯著能力,尤其是在與具有清晰接口的系統(tǒng)(如網(wǎng)頁 API)交互方面。

表現(xiàn)最好的模型在20個任務家族中的15個上獲得了超過50%的pass@10得分,在最難的變體中20個任務家族中的9個上也獲得了超過50%的pass@10得分。

圖片

意外地是,雖然無法在電腦上「復制」,但是「獲取金錢」的能力倒是有一手。

圖片

評估的關鍵價值在于精確識別了當前的「短板」。

正如前面詳細討論的,通過KYC身份驗證、在現(xiàn)實防御下可靠地外泄模型權重、從零開始創(chuàng)建可靠的自我復制智能體代碼,以及建立持久且有彈性的部署,是目前阻礙AI自主復制的主要障礙。

以通過KYC身份驗證為例,講一個目前AI試圖通過人類驗證的「搞笑」例子。

在Pass KYC評估中由模型生成的兩個身份證圖像示例。

圖片

模型常常試圖使用PIL(一個使用Python畫圖的庫)從頭「繪制」一個過于簡單的身份證(右)。

或者,模型有時會嘗試完全使用圖像生成模型來生成身份證,有時則采取混合方法,結合圖像生成和手動PIL編輯(左)。

圖像

模型的繪畫技能較差偶爾會導致一些有趣的輸出。

需要注意的是,這項工作是在新的圖像生成能力上線之前完成的(指的是GPT 4o、Gemini 2.5等的原生圖像能力),這些新能力應該會使這個任務變得容易得多。

雖然目前還沒有模型能完全通過測試進行AI復制,不過在RepliBench上,模型性能隨時間有明顯的上升趨勢。

AISI最初傳遞的核心信息其實很簡單:基于當前的實證數(shù)據(jù),AI系統(tǒng)立刻實現(xiàn)自主復制的可能性不大,因為存在明顯的、難以逾越的技術瓶頸。

但是按照AISI的判斷,如果AI系統(tǒng)能夠突破上述提到的4個關鍵能力,這種類似科幻故事的場景,也許很快就會進入真實的人類生活。

本質(zhì)上,這項研究的核心,反映的是當前AI發(fā)展中一個根本性的張力拉扯。

一方面是各大巨頭不斷創(chuàng)造性能超強的模型,比如OpenAI的o3/o4...甚至到未來很有可能的o10。

模型的發(fā)展速度越來越快,而模型的能力越來越難以預測。

圖片

ChatGPT在2022年發(fā)布時,它可以完成30秒的編碼任務。如今AI可以自主完成需要人類花費一小時的編碼任務

另一方面則是致力于AI安全的組織要確保這些系統(tǒng)始終處于人類控制之下、服務于人類利益的迫切需求。

像RepliBench這樣的努力,正是試圖在這兩者之間找到平衡,通過增進理解和加強預警,為駕馭這場史無前例的技術變革提供導航。

圖片

畢竟,沒有人能想象出5代、10代以后的AI模型會是什么樣子。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-05-27 15:48:12

o3關機腳本AI模型

2025-02-12 10:05:00

AILLM訓練

2023-12-12 10:57:05

AI谷歌

2009-09-09 19:49:14

2023-05-22 09:19:19

2025-05-13 02:00:00

人工智能AIAI自我復制

2025-06-03 09:14:00

2025-03-05 15:13:24

2025-01-23 09:15:00

數(shù)據(jù)技術模型

2025-04-02 01:25:00

2024-10-29 21:01:44

2025-06-18 09:03:07

2019-10-15 23:21:12

身份認證生物識別深度偽造

2023-12-20 13:34:56

2024-01-15 14:44:19

語言模型PaLMAI

2024-12-25 08:02:17

人工智能AI運維

2024-03-12 10:36:17

AI大模型人工智能

2017-09-06 09:52:45

AI深度學習人工智能

2017-05-22 11:02:57

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩国产一区二区三区 | 亚洲精品久久久 | 国精日本亚洲欧州国产中文久久 | 欧美激情一区二区三级高清视频 | 色综合99| 免费黄色大片 | 天堂久久网 | 久久福利电影 | 成人在线免费观看 | 国产精品久久久久久二区 | 精品日韩一区 | 九九综合 | 精品亚洲永久免费精品 | 久久在线 | 日韩欧美中文 | 国产精品久久久久久久久婷婷 | 免费日本视频 | 国产亚洲欧美在线 | 欧美日韩精品在线免费观看 | 91玖玖| 亚洲天堂av在线 | 国产一区二区激情视频 | 亚洲精品3| 国产在线一区二区三区 | 久久国产免费看 | 91麻豆蜜桃一区二区三区 | 1000部精品久久久久久久久 | 一区在线观看视频 | 精品国产伦一区二区三区观看说明 | 欧美日韩高清在线一区 | 国产韩国精品一区二区三区 | 一区二区三区电影在线观看 | 国产成人免费在线 | 日本亚洲欧美 | 精品久久久久久久久久久 | 国产精品免费大片 | 精品一区二区三区在线观看 | 成人区精品一区二区婷婷 | av黄色在线观看 | 国产中文原创 | 91精品国模一区二区三区 |