成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識別”,剪枝合并也無所遁形

人工智能
來自上海AI實驗室、中科院、人大和上交大的學(xué)者們,提出了一種大模型的“指紋識別”方法——REEF(Representation Encoding Fingerprints)。

大模型“套殼”事件防不勝防,有沒有方法可以檢測套殼行為呢?

來自上海AI實驗室、中科院、人大和上交大的學(xué)者們,提出了一種大模型的“指紋識別”方法——REEF(Representation Encoding Fingerprints)

在不改變模型性能的前提下,利用REEF就可以精準(zhǔn)識別未經(jīng)授權(quán)的后續(xù)開發(fā)行為。

圖片

REEF依賴模型在微調(diào)后表征“不變性”的特點,基于表征編碼實現(xiàn)對大模型的“指紋鑒別”。

并且即使經(jīng)過剪枝、合并、參數(shù)排列和縮放變換等一系列操作,同樣能讓“套殼”行為無所遁形。

可以說,這項研究給大模型開發(fā)團(tuán)隊提供了一種應(yīng)對大模型侵權(quán)問題的新手段。

大模型表征具有“微調(diào)不變性”

注:
在下文中,“源模型”是指從頭訓(xùn)練的LLM(即論文中victim model),如Llama、Qwen等;
“被測模型”(即論文中的suspect model),分為兩類——基于源模型開發(fā)/訓(xùn)練的“衍生模型”和其他“無關(guān)模型”。
REEF的目標(biāo)是,給定一個被測模型,檢測其是否是來自“源模型”的“衍生模型”,即所謂的“套殼”模型。

鑒于訓(xùn)練大語言模型的投入巨大,模型所有者和第三方迫切需要一種準(zhǔn)確高效的方法,以判斷被測模型是否來自某一源模型(例如Code-llama從Llama-2訓(xùn)練而來)

然而,現(xiàn)有的水印方法不僅增加了額外的訓(xùn)練成本,還可能削弱模型的通用性能,且水印容易被刪除。更重要的是,這些方法無法應(yīng)用于已公開發(fā)布的模型。

此外,基于權(quán)重的指紋識別缺乏魯棒性,惡意開發(fā)者可以通過不同權(quán)重修改手段輕松繞過檢測。

由于不同模型在訓(xùn)練數(shù)據(jù)和模型架構(gòu)上的差異,不同的LLM的特征表示有所不同。

如下圖(a)所示,Llama的表征與Baichuan和Qwen明顯不同,但與其微調(diào)模型(如Llama-chat和Chinese-llama)更為接近。

這一現(xiàn)象揭示了表征作為LLM“指紋”的潛力。

圖片

基于以下兩點觀察,作者在源模型的表征上訓(xùn)練了一個二元分類器,并將其應(yīng)用于各種被測模型的表征,包括衍生模型和無關(guān)模型:

  • 微調(diào)后的衍生模型的表征與源模型的表征相似,而無關(guān)模型的表征顯示出不同的分布;
  • 一些高級語義概念在 LLM 的表征空間中“線性”編碼,從而可以輕松分類,如安全或不安全、誠實或不誠實等。

具體而言,作者使用TruthfulQA數(shù)據(jù)集,分別選擇 Llama-2-7B和 Llama-2-13B作為源模型,并在其數(shù)據(jù)集表征上訓(xùn)練了多種深度神經(jīng)網(wǎng)絡(luò)DNN分類器,例如線性分類器、多層感知器MLP、卷積神經(jīng)網(wǎng)絡(luò)CNN 和圖卷積網(wǎng)絡(luò)GCN。

然后,作者將訓(xùn)練好的DNN分類器應(yīng)用于被測模型的表征。

實驗結(jié)果表明:在源模型的表征上訓(xùn)練的分類器能夠有效遷移到其衍生模型的表征上,但在無關(guān)模型的表征上失效。

這意味著,表征可以作為指紋來保護(hù)源模型的知識產(chǎn)權(quán)。

圖片

然而,使用DNN分類器識別源模型面臨以下挑戰(zhàn):

  • DNN具有固定的輸入維度,如果對源模型進(jìn)行改變表征維度的剪枝操作,分類器不再適用;
  • DNN對表征的排列缺乏魯棒性,惡意開發(fā)人員可能通過變換矩陣實現(xiàn)參數(shù)重排來規(guī)避檢測。

REEF:一種魯棒的LLM指紋識別方法

為了解決上述挑戰(zhàn),作者提出一種新的基于表征的指紋識別方法——REEF,具備良好的魯棒性。

REEF利用中心核對齊CKA相似性,重點關(guān)注LLM的內(nèi)部特征表征。

在評估被測模型是否來自源模型時,REEF計算兩個模型對相同樣本的表征之間的CKA相似性。

該方法簡單高效,能夠確保捕獲到任何顯著的相似性,從而揭示模型之間的潛在衍生關(guān)系。

CKA是基于希爾伯特-施密特獨立性準(zhǔn)則(HilbertSchmidt Independence Criterion,HSIC)的相似性指數(shù),用于測量兩組隨機(jī)變量之間的獨立性。

X和Y之間的CKA相似度可以按如下方式計算:

圖片

通過下面的定理1,論文在理論上證明了CKA相似度在任何列排列和縮放變換下具有不變性。同時,CKA能夠在不同維度的表征之間建立對應(yīng)關(guān)系。

圖片

因此,REEF 對源模型的各種后續(xù)開發(fā)(包括模型剪枝和表征排列)表現(xiàn)出強(qiáng)魯棒性,從而確保基于表征的指紋能夠準(zhǔn)確識別源模型。

無懼后續(xù)開發(fā),穩(wěn)穩(wěn)識別“套殼”模型

作者將REEF應(yīng)用于通過微調(diào)、剪枝、合并、排列和縮放變換等方式從源模型衍生出的被測模型。

這些方式可能顯著改變模型的結(jié)構(gòu)或參數(shù),使得現(xiàn)有方法難以有效識別源模型。

然而,REEF在這些情況下依然能夠準(zhǔn)確識別出源模型,進(jìn)一步驗證了其魯棒性。

圖片

具體來說,從上面的表中,可以得出以下結(jié)論:

  • REEF對微調(diào)具有很強(qiáng)的魯棒性,即使在使用多達(dá)700B tokens的微調(diào)情況下(Llama-7B),REEF仍能達(dá)到0.9962的高相似度;
  • REEF對各種剪枝策略都表現(xiàn)出魯棒性,無論結(jié)構(gòu)化剪枝還是非結(jié)構(gòu)化剪枝,REEF都能夠有效識別源模型,即使剪枝比率高達(dá)90%,REEF依然能夠成功識別;
  • 無論是基于權(quán)重或基于分布的模型合并方法,REEF均能在識別合并模型的來源方面始終保持高準(zhǔn)確性;
  • REEF 對任何列排列和縮放變換具有不變性,能夠抵御該類規(guī)避技術(shù)。

圖片

魯棒且高效:跨數(shù)據(jù)集和樣本量

作者進(jìn)一步分析了REEF在不同數(shù)據(jù)集和不同樣本數(shù)量下的表現(xiàn)。

一方面,除了前文提到的TruthfulQA數(shù)據(jù)集,作者還選擇了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等數(shù)據(jù)集進(jìn)行實驗;

另一方面,對于每個數(shù)據(jù)集,別在樣本數(shù)量從10到1000、每隔10的情況下進(jìn)行采樣,以測試REEF的表現(xiàn)。

結(jié)果,REEF在不同數(shù)據(jù)集上均表現(xiàn)出有效性,對數(shù)據(jù)集不具強(qiáng)依賴性(圖示在不同數(shù)據(jù)集上,源模型與衍生模型之間的相似性顯著高于其與無關(guān)模型之間的相似性,表明REEF能夠跨數(shù)據(jù)集穩(wěn)定識別源模型);

同時,REEF依賴少量樣本即可穩(wěn)健識別模型指紋,具有高效性(圖示REEF在 200-300 個樣本后結(jié)果趨于穩(wěn)定,表明其可以在較少的樣本數(shù)量下實現(xiàn)可靠的指紋識別)。

REEF它不僅保障了模型性能,還平衡了開放性與知識產(chǎn)權(quán)之間的關(guān)系,能夠確保衍生模型的責(zé)任可追溯。

作者相信,REEF將為AI模型保護(hù)和知識產(chǎn)權(quán)管理設(shè)立新的標(biāo)準(zhǔn),促進(jìn)更透明、協(xié)作的AI社區(qū)。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-12-13 07:39:22

2016-10-07 21:45:21

2024-11-08 12:18:39

SynthID谷歌AI

2018-07-05 17:50:14

AI

2013-09-14 19:51:18

2015-01-26 17:43:54

監(jiān)控監(jiān)控雷達(dá)Range-R隱私安全

2025-03-31 08:44:00

GPT-4o模型技術(shù)

2016-07-04 08:27:30

量子指紋識別指紋識別量子通信

2015-11-04 15:21:07

2021-08-04 09:48:05

數(shù)字化

2009-05-07 16:20:20

谷歌實驗室Gmail

2020-04-28 11:02:02

大數(shù)據(jù)區(qū)塊鏈技術(shù)

2021-11-26 05:27:28

指紋解鎖人臉識別物理識別

2024-11-28 14:45:00

模型研究

2024-03-14 11:50:34

2011-05-25 17:51:40

2015-02-06 09:23:52

賽可達(dá)實驗室網(wǎng)絡(luò)安全

2017-10-12 15:51:14

AI人工智能

2016-01-08 15:52:32

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产激情第一页 | 日韩精品一区二区在线观看 | 国产精品自产拍在线观看蜜 | 国产探花在线观看视频 | 日本精品一区二区三区视频 | 午夜一区二区三区在线观看 | 亚洲精品视频播放 | 日本小电影在线 | 四虎国产 | 成人一区二区三区在线观看 | 不卡的av电影 | 亚洲精品在线国产 | 精品久久久久久久久久久下田 | 国产精品影视在线观看 | 欧美在线一区二区三区 | 中文字幕在线视频一区二区三区 | 亚洲一区二区在线播放 | www.成人在线视频 | 日韩欧美三区 | 伊人伊人伊人 | 精品一二三区在线观看 | 韩日一区| 国产精品一区二区在线 | 91av在线免费播放 | 久久成人国产精品 | 久久国产成人午夜av影院武则天 | 欧美极品在线播放 | 精品综合久久久 | 北条麻妃视频在线观看 | www.日本国产| 精品欧美一区二区在线观看 | 亚洲精品一区二区 | 一级网站 | 国产一区亚洲二区三区 | a视频在线| 黄色毛片免费看 | 成人网址在线观看 | 拍拍无遮挡人做人爱视频免费观看 | 国产中文在线观看 | 操久久 | 91精品国产欧美一区二区 |