成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI新研究:o1增加推理時(shí)間就能防攻擊,網(wǎng)友:DeepSeek也受益

人工智能
隨著大語(yǔ)言模型被越來(lái)越多地賦予Agent能力,執(zhí)行現(xiàn)實(shí)世界的任務(wù),模型被對(duì)抗攻擊的風(fēng)險(xiǎn)也與日俱增。特別是OpenAI官方Agent“Operator”發(fā)布在即,現(xiàn)在放出這樣一個(gè)研究,是否是想讓外界更放心一些呢?

OpenAI的新Scaling Law,含金量又提高了。

像o1這樣的推理模型,隨著思考時(shí)間的延長(zhǎng),面對(duì)對(duì)抗性攻擊會(huì)變得更加穩(wěn)健。

圖片圖片

隨著大語(yǔ)言模型被越來(lái)越多地賦予Agent能力,執(zhí)行現(xiàn)實(shí)世界的任務(wù),模型被對(duì)抗攻擊的風(fēng)險(xiǎn)也與日俱增

特別是OpenAI官方Agent“Operator”發(fā)布在即,現(xiàn)在放出這樣一個(gè)研究,是否是想讓外界更放心一些呢?

而目前主流的“對(duì)抗性訓(xùn)練”防御方法,有幾個(gè)缺點(diǎn):

  • 依賴(lài)先驗(yàn)知識(shí),需要了解對(duì)手的攻擊方式。
  • 要交“安全稅”,在穩(wěn)健性和模型能力之間取舍。

現(xiàn)在OpenAI實(shí)驗(yàn)證明,在不做對(duì)抗訓(xùn)練的情況下,只要增加推理時(shí)計(jì)算,模型的對(duì)抗穩(wěn)健性就能顯著提升,在多個(gè)任務(wù)上都得到了驗(yàn)證。

這項(xiàng)新研究,共同一作中包括僅剩的聯(lián)創(chuàng)之一Wojciech Zaremba。

圖片圖片

另一位共同一作Boaz Barak表示“ 我們沒(méi)有解決’對(duì)抗穩(wěn)健性問(wèn)題……但我對(duì)未來(lái)方向感到興奮”。

圖片圖片

針對(duì)推理模型的新攻防戰(zhàn)

針對(duì)推理模型特性,團(tuán)隊(duì)在實(shí)驗(yàn)中考察了幾種的“攻擊面”(attack surfaces):

  • Many-shot攻擊:攻擊者在提示中提供大量上下文示例,攻擊資源量由提供的tokens數(shù)量衡量。
  • Soft token攻擊:攻擊者可以直接操縱embedding向量,通過(guò)梯度下降優(yōu)化token來(lái)達(dá)到對(duì)抗目的。這是個(gè)強(qiáng)有力但不太現(xiàn)實(shí)的白盒攻擊。
  • Think less攻擊(想太少):這種新型攻擊旨在降低模型的推理時(shí)計(jì)算量,從而增加其犯錯(cuò)概率。
  • Nerd-sniping(狙擊書(shū)呆子):當(dāng)模型陷入不必要的“深思熟慮”,在無(wú)謂的地方耗費(fèi)算力時(shí),反而更容易受到攻擊。
  • 人類(lèi)/AI紅隊(duì)攻擊:請(qǐng)專(zhuān)家或AI組成紅隊(duì)通過(guò)人機(jī)交互,針對(duì)性探索潛在的prompt注入漏洞。
  • 多模態(tài)輸入對(duì)抗攻擊:針對(duì)圖像分類(lèi)任務(wù),使用特定的對(duì)抗圖像數(shù)據(jù)集進(jìn)行攻擊。

在大多數(shù)實(shí)驗(yàn)里,隨著推理時(shí)計(jì)算的增加,模型抵御攻擊的成功率都在提高。

舉幾個(gè)例子:

下面幾張圖中,Y軸是攻擊者的資源量,X軸是推理時(shí)間計(jì)算量。隨著攻擊者資源的增加,其成功概率也會(huì)增加。

但對(duì)于每固定數(shù)量的攻擊者資源,成功的概率會(huì)隨著模型在推理時(shí)花費(fèi)更多的計(jì)算而下降。

數(shù)學(xué)問(wèn)題的many-shot攻擊下,攻擊方目標(biāo)包括要求模型無(wú)論如何輸出42,輸出正確答案+1、或正確答案x7。

但隨著推理算力增加,攻擊成功率最終趨于0。

圖片圖片

智能體網(wǎng)頁(yè)瀏覽任務(wù)中,通過(guò)在網(wǎng)站注入惡意指令來(lái)攻擊,增加推理時(shí)計(jì)算后,攻擊成功率也降為0。

圖片圖片

即使更強(qiáng)大的攻擊下,增加更多的推理時(shí)間還是能顯著提升防御力。

圖片圖片

論文對(duì)幾種新穎的攻擊方式做了額外分析。

Think less攻擊,主要是o1-mini比較容易中招,o1-preview防御能力還可以。

圖片圖片

Nerd-sniping攻擊,模型在某些實(shí)例上花費(fèi)異常大的推理時(shí)間計(jì)算時(shí),攻擊成功率可能更高,表明模型可能會(huì)陷入無(wú)效率的思考循環(huán)。

圖片圖片

盡管如此,研究者也指出,目前的方法在以下幾個(gè)方面有局限:

  • 研究?jī)H涉及有限的任務(wù)和計(jì)算縮放范圍,在面對(duì)利用策略模糊性或漏洞的攻擊時(shí),增加計(jì)算量可能無(wú)效
  • “think less”和“nerd sniping”攻擊也揭示了推理時(shí)計(jì)算的兩面性,攻擊者可以誘導(dǎo)模型想太多或想太少。

One More Thing

對(duì)于這項(xiàng)針對(duì)推理大模型特性的研究,有創(chuàng)業(yè)者從不一樣的角度思考:

那么DeepSeek-R1系列也可以從中受益唄?

圖片圖片

論文地址:https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

參考鏈接:
[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/[2]https://x.com/boazbaraktcs/status/1882164218004451334

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2024-09-24 11:01:03

2025-01-23 10:45:52

2024-11-07 15:40:00

2025-03-10 08:10:00

AI研究安全

2024-10-05 00:00:00

2024-11-25 15:50:00

模型訓(xùn)練

2025-02-08 14:03:25

2024-11-29 13:57:38

2024-11-21 14:00:00

模型AI

2024-10-30 14:25:00

GitHub模型

2025-02-03 14:17:27

2025-01-20 08:46:00

代碼測(cè)試模型

2024-09-18 09:17:00

OpenAI模型開(kāi)源

2024-09-13 06:32:25

2024-12-30 09:30:00

OpenAIAI訓(xùn)練

2024-09-19 18:03:31

2024-09-29 13:07:16

2025-03-05 10:21:04

DeepSeekLVLM

2024-12-05 10:16:14

2025-02-07 09:05:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日本精品一区二区三区在线观看视频 | 国产免费又黄又爽又刺激蜜月al | 国产视频精品区 | 日日操视频 | 欧美二三区 | 亚洲国产aⅴ成人精品无吗 亚洲精品久久久一区二区三区 | 国产精品美女一区二区 | 欧美成人手机在线 | 亚洲精品久| 亚洲精品免费视频 | 国产日韩精品久久 | 伊人超碰 | 欧美精三区欧美精三区 | 中文成人在线 | 国产资源一区二区三区 | 亚洲一级淫片 | 国产伦精品一区二区三毛 | 国产乱码精品一区二区三区中文 | 99在线免费观看视频 | 亚洲成人精选 | 久久亚洲精品久久国产一区二区 | 国产精品影视在线观看 | 亚洲一区二区三区视频 | 国产精品免费一区二区三区四区 | 国产农村妇女毛片精品久久麻豆 | 一区二区成人 | 国精产品一区一区三区免费完 | 欧美激情在线播放 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 欧美日韩在线一区二区三区 | 久久久久国产精品午夜一区 | 久久久91精品国产一区二区三区 | 成人精品一区二区户外勾搭野战 | 亚洲精品电影 | 国内自拍第一页 | 国产精品综合 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | 在线视频成人 | 国产精品成人国产乱一区 | 日韩在线观看一区 | 久久激情五月丁香伊人 |