成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習的重新思考:人工智能如何學習“失憶”?

人工智能 機器學習 新聞
如何讓訓練好的模型遺忘掉特定數(shù)據(jù)訓練效果, 以達到保護模型中隱含數(shù)據(jù)的目的?

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

機器學習已經(jīng)成為各行各業(yè)的寶藏工具,常被用來構(gòu)建系統(tǒng),幫助人們發(fā)現(xiàn)那些容易忽略的細節(jié),并輔助決策。盡管已經(jīng)取得了驚艷的結(jié)果,但是也有很多痛苦,例如如何在已經(jīng)成型的模型中修改、刪減某些模塊或者數(shù)據(jù)記錄?

有學者表示,在大多數(shù)情況下,修改往往意味著重新訓練,但仍然無法避免納入可疑數(shù)據(jù)。這些數(shù)據(jù)可能來自系統(tǒng)日志、圖像、客戶管理系統(tǒng)等等。尤其是歐洲GDPR出臺,對模型遺忘功能提出了更高的要求,企業(yè)如果不想辦法將會面臨合規(guī)處罰。

確實,完全重新訓練的代價比較高,也不可能解決敏感數(shù)據(jù)問題。因此,我們無法證明重新訓練的模型可以完全準確、有效。

為了解決這些問題,學者們定義了一種“機器學習解除術(shù)”(machine unlearning),通過分解數(shù)據(jù)庫、調(diào)整算法等專門技術(shù),誘導模型選擇性失憶。機器學習解除術(shù),顧名思義,就是讓訓練好的模型遺忘掉特定數(shù)據(jù)訓練效果/特定參數(shù), 以達到保護模型中隱含數(shù)據(jù)的目的。

打破模型

機器學習之所以有魅力,是因為它能透過龐大的數(shù)據(jù),超出人類認知范圍的復雜關(guān)系。同時,這項技術(shù)的黑盒性質(zhì),讓學者在修改模型時候,非常謹慎,畢竟無法知道一個特定的數(shù)據(jù)點處在模型的哪個位置,以及無法明確該數(shù)據(jù)點如何直接影響模型。

另外一種情況是:當數(shù)據(jù)出現(xiàn)異常值時,模型會記得特別牢,并對整體效果產(chǎn)生影響。

當前的數(shù)據(jù)隱私工具可以在數(shù)據(jù)脫敏的情況下訓練模型,也可以在數(shù)據(jù)不出本地的情況下聯(lián)合訓練?;蛟S可以將敏感數(shù)據(jù)替換成空值,引入噪聲掩蔽敏感數(shù)據(jù)。但這些都無法從根本上解決問題。甚至,替代元素并保留關(guān)鍵數(shù)據(jù)的差異隱私技術(shù)也不足以解決選擇性遺忘問題。例如它只能在單個案件或少數(shù)幾個案件中發(fā)揮作用,在這些案件中,雖然不需要重新訓練,但會有“敏感”的人要求從數(shù)據(jù)庫中刪除數(shù)據(jù)。隨著越來越多的刪除請求陸續(xù)到來,該框架的“遺忘模型"很快就會瓦解。

因此,隱私技術(shù)和機器學習解除術(shù)在解決問題的層面,并不能等同。

匿名無法驗證和差分隱私技術(shù)的數(shù)據(jù)刪除問題不僅是理論問題,而且會產(chǎn)生嚴重的后果。研究人員已經(jīng)證明,人們總是有能力從所謂的通用算法和模型中提取敏感數(shù)據(jù)。例如2020年時候,學者發(fā)現(xiàn),從GPT-2中可以獲得包括個人身份和受版權(quán)保護的信息等訓練數(shù)據(jù)。


選擇性遺忘

讓機器學習模型獲得選擇性遺忘的能力,需要解決兩個關(guān)鍵問題:

  • 理解每個數(shù)據(jù)點如何機器學習模型;
  • 隨機性如何影響空間。例如需要弄清,在某些情況下,數(shù)據(jù)輸入中相對較小的變化為何會產(chǎn)生不同的結(jié)果。

該方向的最初研究出現(xiàn)在在2019年。當時,Nicolas Papernot提出將機器學習的數(shù)據(jù)分割成多個獨立的部分,通過建立眾多的迷你數(shù)據(jù),從而實現(xiàn)只對特定組件進行刪除和再訓練,然后插回完整的數(shù)據(jù)集中,生成功能齊全的機器學習模型。

具體操作過程是:先將訓練數(shù)據(jù)分成多個不相交的切片,且一個訓練點只包含在一個切片中;然后,在每個切片上單獨訓練模型;隨后,合并切片,成功刪除數(shù)據(jù)元素。因此,當一個訓練點被要求遺忘時,只需要重新訓練受影響的模型。由于切片比整個訓練集更小,就減少了遺忘的代價。

該方法被Nicolas Papernot命名為SISA(Sharded, Isolated, Sliced, and Aggregated ),對比完全重訓練和部分重訓練的基線, SISA實現(xiàn)了準確性和時間開銷的權(quán)衡。在簡單學習任務(wù)中, 在數(shù)據(jù)集Purchase上是4.63x, 在數(shù)據(jù)集 SVHN上是2.45x。

同時,作者也承認,雖然這個概念很有前途,但也有局限性。例如,通過減少每個切片的數(shù)據(jù)量,會對機器學習產(chǎn)生影響,并且可能會產(chǎn)生質(zhì)量較低的結(jié)果。此外,這項技術(shù)并不總是像宣傳的那樣奏效。

目前,機器學習遺忘術(shù)的研究仍處于初級階段。隨著研究人員和數(shù)據(jù)科學家深入了解刪除數(shù)據(jù)對整體模型的影響,成熟的工具也會出現(xiàn),其目標是:機器學習框架和算法允許學者刪除一條記錄或單個數(shù)據(jù)點,并最終得到一個“完全遺忘“相關(guān)數(shù)據(jù)的有效模型。

責任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2015-10-10 09:32:24

機器學習人工智能

2021-03-30 13:45:00

人工智能

2017-03-18 16:28:40

人工智能機器學習深度學習

2020-10-16 10:19:10

智能

2017-04-18 15:49:24

人工智能機器學習數(shù)據(jù)

2022-06-01 14:33:59

人工智能交通運輸機器學習

2021-04-16 09:53:45

人工智能機器學習深度學習

2021-12-01 22:55:45

人工智能機器學習深度學習

2017-02-08 15:59:11

人工智能機器

2018-05-11 14:34:24

人工智能機器學習深度學習

2016-09-01 14:47:56

人工智能機器學習深度學習

2021-02-26 10:02:13

人工智能深度學習機器學習

2019-03-06 09:00:00

機器學習人工智能

2021-10-08 10:26:37

人工智能機器學習AI

2021-02-22 10:59:43

人工智能機器學習深度學習

2020-06-12 10:57:08

人工智能機器學習RPA

2020-09-07 11:28:09

人工智能機器學習AI

2018-06-28 20:47:18

人工智能機器學習深度學習

2021-07-27 13:30:25

人工智能機器學習深度學習

2023-10-11 15:07:30

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线小视频 | 在线国产一区 | 亚洲协和影视 | 午夜寂寞福利视频 | 男人阁久久 | 国产精品不卡视频 | 91免费观看 | 粉色午夜视频 | 国产精品免费在线 | 久久久久国产精品一区二区 | 欧美一级黄视频 | 午夜视频一区 | 成人在线免费视频 | 精品久久久久久久久久久久久久 | 久久国产精品偷 | 日本亚洲欧美 | 一区二区视频在线 | 亚洲成人精品在线观看 | 亚洲精品欧美一区二区三区 | 国产精品久久久久久久久久了 | 久久国产欧美日韩精品 | 成人黄色在线观看 | 天天亚洲 | 91精品久久久久久久久久 | 一a一片一级一片啪啪 | 欧美黑人一级爽快片淫片高清 | 国产一区二区精品在线 | 久久精品av麻豆的观看方式 | 久久国产精品一区 | 久久久久亚洲国产| 欧美久久久 | 伊人成人免费视频 | 日韩一区二区三区在线观看视频 | 日韩视频中文字幕 | 夜夜骑首页 | 欧美电影免费观看 | 日韩一区二区精品 | 中文字幕一级毛片视频 | 亚洲欧美精品在线观看 | 国产精品久久国产精品 | 欧美成人激情 |