成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

物聯網安全:數據庫隱私保護

安全
目前,隱私保護技術在數據庫中的應用主要集中在數據挖掘和數據發布兩個領域。

[[373474]]

 01 數據庫的隱私威脅模型

目前,隱私保護技術在數據庫中的應用主要集中在數據挖掘和數據發布兩個領域。數據挖掘中的隱私保護(Privacy Protection Data Mining,PPDM)是指如何在能保護用戶隱私的前提下進行有效的數據挖掘;數據發布中的隱私保護(Privacy Protection Data Publish,PPDP)是指如何在保護用戶隱私的前提下發布用戶的數據,以供第三方有效地研究和使用。

圖1描述了數據收集和數據發布的一個典型場景。

圖1  數據收集和數據發布

在數據收集階段,數據發布者從數據擁有者(如Alice,Bob等)處收集到了大量的數據。在數據發布階段,數據發布者發布收集到的數據給挖掘用戶或公共用戶,這里也將他們稱為數據接收者,它能夠在發布的數據上進行有效的數據挖掘以便于研究和利用。這里講的數據挖掘具有廣泛的意義,并不僅限于模式挖掘和模型構建。例如,疾病控制中心須收集各醫療機構的病歷信息,以進行疾病的預防與控制。某醫療機構從患者那里收集了大量的數據,并且把這些數據發布給疾病控制中心。本例中,醫療機構是數據發布者,患者是數據記錄擁有者,疾病控制中心是數據接收者。疾病控制中心進行的數據挖掘可以是從糖尿病患者的簡單計數到任何事情的聚類分析。

有兩種計算模型針對數據發布者。在不可信計算模型中,數據發布者是不可信的,它可能會嘗試從數據擁有者那里識別敏感信息。各種加密方法、匿名通信方法以及統計方法等都可用于從數據擁有者那里匿名收集數據而不泄露數據擁有者的身份標志。在可信計算模式中,數據發布者是可信的,而且數據擁有者也愿意提供他們的數據給數據發布者。但是,數據接收者是不可信的。

數據挖掘與知識發現在各個領域都扮演著非常重要的角色。數據挖掘的目的在于從大量的數據中抽取出潛在的、有價值的知識(模型或規則)。傳統的數據挖掘技術在發現知識的同時會給數據的隱私帶來嚴重威脅。例如,疾病控制中心在收集各醫療機構的病歷信息的過程中,傳統數據挖掘技術將不可避免地會暴露患者的敏感數據(如所患疾病),而這些敏感數據是數據擁有者(醫療機構、病人)不希望被揭露或被他人知道的。

02 數據庫的隱私保護技術

隱私保護技術是為了解決數據挖掘和數據發布中的數據隱私暴露問題。隱私保護技術在具體實施時需要考慮以下兩個方面:① 如何保證數據應用過程中不泄露數據隱私;② 如何更有利于數據的應用。下面分別對基于數據失真的隱私保護技術、基于數據加密的隱私保護技術、基于限制發布的隱私保護技術進行詳細介紹。

1. 基于數據失真的隱私保護技術

數據失真技術是通過擾動原始數據來實現隱私保護的,擾動后的數據需要滿足:① 攻擊者不能發現真實的原始數據,即攻擊者不能通過發布的失真數據并借助一定的背景知識重構出真實的原始數據;② 經過失真處理后的數據要能夠保持某些性質不變,即利用失真數據得出的某些信息和從原始數據中得出的信息要相同,如某些統計特征要一樣,這保證了基于失真數據的某些應用是可行的。

基于失真的隱私保護技術主要采用隨機化、阻塞、凝聚等技術。

(1)隨機化

數據隨機化就是在原始數據中加入隨機噪聲,然后發布擾動后的數據。隨機化技術包括隨機擾動和隨機應答兩類。

① 隨機擾動。隨機擾動采用隨機化技術來修改敏感數據,達到對數據隱私的保護。圖2(a)給出了隨機擾動的過程。攻擊者只能截獲或觀察擾動后的數據,這樣就實現了對真實數據X的隱藏,但是擾動后的數據仍然保留著原始數據的分布信息。通過對擾動數據進行重構,如圖2(b)所示,可以恢復原始數據X的信息,但不能重構原始數據的精確值x1,x2,…,xn。

圖2  隨機擾動與重構過程

隨機擾動技術可以在不暴露原始數據的情況下進行多種數據挖掘操作。由于擾動后的數據通過重構得到的數據分布幾乎和原始數據的分布相同,因此,利用重構數據的分布進行決策樹分類器訓練后,得到的決策樹能很好地對數據進行分類。在關聯規則挖掘中,可以通過在原始數據中加入大量偽項來隱藏頻繁項集,再通過在隨機擾動后的數據上估計項集的支持度來發現關聯規則。除此之外,隨機擾動技術還可以被應用到聯機分析處理(Online Analytical Processing,OLAP)上,實現對隱私的保護。

② 隨機應答。隨機應答是指數據擁有者在擾動原始數據后再將其發布,以使攻擊者不能以高于預定閾值的概率得出原始數據是否包含某些真實信息或偽信息。雖然發布的數據不再真實,但是在數據量比較大的情況下,統計信息和匯聚信息仍然可以被較為精確地估計出來。隨機應答和隨機擾動的不同之處在于敏感數據是通過一種應答特定問題的方式提供給外界的。

2)阻塞與凝聚

隨機化技術的一個無法避免的缺點是:針對不同的應用都需要設計特定的算法以對轉換后的數據進行處理,因為所有的應用都需要重建數據的分布。凝聚技術可以克服隨機化技術的這一缺點,它的基本思想是:將原始數據分成組,每組內存儲著由k條記錄產生的統計信息,包括每個屬性的均值、協方差等。這樣,只要是采用凝聚技術處理的數據,都可以用通用的重構算法進行處理,并且重構后的數據并不會披露原始數據的隱私,因為同一組內的k條記錄是兩兩不可區分的。

與隨機化技術修改敏感數據、提供非真實數據的方法不同,阻塞技術采用的是不發布某些特定數據的方法,因為某些應用更希望基于真實數據進行研究。例如,可以通過引入代表不確定值的符號“?”來實現對布爾關聯規則的隱藏。由于某些值被“?”代替,所以對某些項集的計數是一個不確定的值,此值位于一個最小估計值和最大估計值之間。于是,對敏感關聯規則的隱藏就是在數據中的阻塞盡量少的情況下,將敏感關聯規則可能的支持度和置信度控制在預定的閾值以下。另外,利用阻塞技術還可以實現對分類規則的隱藏。

2. 基于數據加密的隱私保護技術

基于數據加密的隱私保護技術多用于分布式應用中,如分布式數據挖掘、安全查詢、幾何計算、科學計算等。分布式應用的功能實現通常會依賴于數據的存儲模式和站點的可信度及其行為。

分布式應用采用垂直劃分和水平劃分兩種數據模式存儲數據。垂直劃分數據是指分布式環境中每個站點只存儲部分屬性的數據,所有站點存儲的數據不重復;水平劃分數據是將數據記錄存儲到分布式環境中的多個站點,所有站點存儲的數據不重復。分布式環境下的站點,根據其行為可以分為準誠信攻擊者和惡意攻擊者。準誠信攻擊者是遵守相關計算協議但仍試圖進行攻擊的站點;惡意攻擊者是不遵守相關計算協議且試圖披露隱私的站點。一般會假設所有站點為準誠信攻擊者。

基于加密技術的隱私保護技術主要有安全多方計算、分布式匿名化、分布式關聯規則挖掘、分布式聚類等。

(1)安全多方計算

安全多方計算協議是密碼學中非常活躍的一個學術領域,它有很強的理論和實際意義。一個簡單安全多方計算的實例就是著名華人科學家姚期智提出的百萬富翁問題:兩個百萬富翁Alice和Bob都想知道他倆誰更富有,但他們都不想讓對方知道關于自己財富的任何信息。

按照常規的安全協議運行之后,雙方只知道誰更加富有,而對對方具體有多少財產卻一無所知。

通俗地講,安全多方計算可以被描述為一個計算過程:兩個或多個協議參與者基于秘密輸入來計算一個函數。安全多方計算假定參與者愿意共享一些數據用于計算。但是,每個參與者都不希望自己的輸入被其他參與者或任何第三方知道。

一般來說,安全多方計算可以看成是在具有n個參與者的分布式網絡中私密輸入為x1,x2,…,xn的計算函數f(x1,x2,…,xn),其中參與者i僅知道自己的輸入xi和輸出f(x1,x2,…,xn),再沒有任何其他多余信息。如果假設有可信第三方存在,則這個問題的解決就會變得十分容易,參與者只需要將自己的輸入通過秘密通道傳送給可信第三方,由可信第三方計算這個函數,然后將計算結果廣播給每一個參與者即可。但是在現實中很難找到一個讓所有參與者都信任的可信第三方。因此,安全多方計算協議主要是針對在無可信第三方的情況下安全計算約定函數的問題。

眾多分布式環境下基于隱私保護的數據挖掘應用都可以抽象成無可信第三方參與的安全多方計算問題,即如何使兩個或多個站點通過某種協議完成計算后,每一方都只知道自己的輸入和所有數據計算后的結果。

由于安全多方計算基于了“準誠信模型”這一假設,因此其應用范圍有限。

(2)分布式匿名化

匿名化就是隱藏數據或數據來源,因為大多數應用都需要對原始數據進行匿名處理以保證敏感信息的安全,然后在此基礎上進行數據挖掘與發布等操作。分布式下的數據匿名化都面臨在通信時如何既保證站點數據隱私又能收集到足夠信息以實現利用率盡量大的數據匿名這一問題。

以在垂直劃分的數據環境下實現兩方分布式k-匿名為例來說明分布式匿名化。假設有兩個站點S1、S2,它們擁有的數據分別是{ID,A1,A2,…,An}和{ID,B1,B2,…,Bn},其中,Ai為S1擁有數據的第i個屬性。利用可交換加密在通信過程中隱藏原始信息,在構建完整的匿名表時判斷是否“滿足k-匿名條件”先實現。分布式k-匿名算法如下所示。

輸入:站點S1、S2,數據{ID,A1,A2,…,An}、{ID,B1,B2,…,Bn}

輸出:k-匿名數據表T×

過程:

① 2個站點分別產生私有密鑰K1和K2,且須滿足:EK1(EK2(D))=EK2(EK1(D)),其中D為任意數據。

② 表T×←NULL。

③ while T×中數據不滿足k-匿名條件 do。

④ 站點i(i=1或2)

a. 泛化{ID,A1,A2,…,An}為{ID,A1×,A2×,…,An×},其中A1×表示A1泛化后的值;

b. {ID,A1,A2,…,An}←{ID,A1×,A2×,…,An×};

c. 用Ki加密{ID,A1×,A2×,…,An×}并將其傳遞給另一站點;

d. 用Ki加密另一站點加密的泛化數據并回傳;

e. 根據兩個站點加密后的ID值對數據進行匹配,構建經K1和K2加密后的數據表T×{ID,A1×,A2×,…,An×,ID,B1,B2,…,Bn}。

⑤ end while。

在水平劃分的數據環境中,可以通過引入第三方,利用滿足性質的密鑰來實現數據的k-匿名化:每個站點加密私有數據并將其傳遞給第三方,當且僅當有k條數據記錄的準標志符屬性值相同時,第三方的密鑰才能將這k條數據記錄進行解密。

(3)分布式關聯規則挖掘

在分布式環境下,關聯規則挖掘的關鍵是計算項集的全局計數,加密技術能保證在計算項集計數的同時,不會泄露隱私信息。例如,在數據垂直劃分的分布式環境中,需要解決的問題是:如何利用分布在不同站點的數據計算項集計數,找出支持度大于閾值的頻繁項集。此時,在不同站點之間計數的問題被簡化為在保護隱私數據的同時,在不同站點間計算標量積的問題。

(4)分布式聚類

基于隱私保護的分布式聚類的關鍵是安全地計算數據間的距離,聚類模型有Naïve聚類模型(K-means)和多次聚類模型,兩種模型都利用了加密技術來實現信息的安全傳輸。

① Naïve聚類模型:各個站點將數據加密方式安全地傳遞給可信第三方,由可信第三方進行聚類后返回結果。

② 多次聚類模型:首先各個站點對本地數據進行聚類并發布結果,然后通過對各個站點發布的結果進行二次處理,實現分布式聚類。

3. 基于限制發布的隱私保護技術

限制發布是指有選擇地發布原始數據、不發布或者發布精度較低的敏感數據以實現隱私保護。當前基于限制發布的隱私保護技術主要采用數據匿名化技術,即在隱私披露風險和數據精度之間進行折中,有選擇地發布敏感數據及可能披露敏感數據的信息,但保證敏感數據及隱私的披露風險在可容忍的范圍內。

數據匿名化一般采用兩種基本操作。

① 抑制。抑制某數據項,即不發布該數據項。

② 泛化。泛化指對數據進行更抽象的和概括性的描述。例如,可把年齡30歲泛化成區間[20,40]的形式,因為30在區間[20,40]內。

數據匿名化處理的原始數據一般為數據表形式,表中每一行都是一個記錄,對應一個人。每條記錄包含多個屬性(數據項),這些屬性可分為3類。

① 顯式標志符(explicit identifier),能唯一表示單一個體的屬性,如身份證、姓名等。

② 準標志符(quasi-identifiers),幾個屬性聯合起來可以唯一標志一個人,如郵編、性別、出生年月等聯合起來可能就是一個準標志符。

③ 敏感屬性(sensitive attribute),包含用戶隱私數據的屬性,如疾病、收入、宗教信仰等。

表1所示為某家醫院的原始診斷記錄,每一條記錄(行)都對應一個唯一的病人,其中{“姓名”}為顯示標志符屬性,{“年齡”“性別”“郵編”}為準標志符屬性,{“疾病”}為敏感屬性。

表1  某醫院原始診斷記錄

傳統的隱私保護方法是先刪除表1中的顯示標志符“姓名”,然后再將其發布出去。表2給出了表1的匿名數據。假設攻擊者知道表2中有Betty的診斷記錄,而且攻擊者知道Betty年齡是25歲,性別是女,郵編是12300,則根據表2,攻擊者可以很容易地確定Betty對應表中的第一條記錄。因此,攻擊者可以肯定Betty患了腫瘤。

表2  某醫院原始診斷記錄(匿名)

顯然,由傳統的數據隱私保護算法得到匿名數據不能很好地阻止攻擊者根據準標志符信息推測目標個體的敏感信息。因此,需要有更加嚴格的匿名處理方法以達到保護數據隱私的目的。

(1)數據匿名化算法

大多數匿名化算法致力于解決根據通用匿名原則怎樣更好地發布匿名數據這一問題,另一方面則致力于解決在具體應用背景下,如何使發布的匿名數據更有利于應用。

① 基于通用原則的匿名化算法

基于通用原則的匿名化算法通常包括泛化空間枚舉、空間修剪、選取最優化泛化、結果判斷與輸出等步驟。基于通用原則的匿名化算法大都基于k-匿名算法,不同之處僅在于判斷算法結束的條件,而泛化策略、空間修剪等都是基本相同的。

② 面向特定目標的匿名化算法

在特定的應用場景下,通用的匿名化算法可能不能滿足特定目標的要求。面向特定目標的匿名化算法就是針對特定應用場景的隱私化算法。例如,考慮到數據應用者需要利用發布的匿名數據構建分類器,因此設計匿名化算法時就需要考慮在保護隱私的同時,怎樣使發布的數據更有利于分類器的構建,并且采用的度量指標要能直接反映出對分類器構建的影響。已有的自底向上的匿名化算法和自頂向下的匿名化算法都將信息增益作為度量。發布的數據信息丟失越少,構建的分類器的分類效果越好。自底向上的匿名化算法會在每次搜索泛化空間時,采用使信息丟失最少的泛化方案進行泛化,重復執行以上操作直到數據滿足匿名原則的要求為止。自頂向下的匿名化算法的操作過程則與之相反。

③ 基于聚類的匿名化算法

基于聚類的匿名化算法將原始記錄映射到特定的度量空間,再對空間中的點進行聚類以實現數據匿名。類似k-匿名,算法保證每個聚類中至少有k個數據點。根據度量的不同,有r-gather和r-cellular兩種聚類算法。在r-gather算法中,以所有聚類中的最大半徑為度量對所有數據點進行聚類,在保證每個聚類至少包含k個數據點時,所有聚類中的最大半徑越小越好。

基于聚類的匿名化算法主要面臨以下兩個挑戰。

a. 如何對原始數據的不同屬性進行加權(因為對屬性的度量越準確,聚類的效果就越好)?

b. 如何使不同性質的屬性同意映射到同一度量空間?

數據匿名化由于能處理多種類型的數據,并發布真實的數據,因此能滿足眾多實際應用的需求。圖3所示是數據匿名化的場景及相關隱私匿名實例。可以看到,數據匿名化是一個復雜的過程,需要同時權衡原始數據、匿名化技術、匿名數據、背景知識、攻擊者等眾多因素。

圖3  數據匿名化場景

(2)k-匿名規則

基于k-匿名規則演化的各種數據發布方式將原始數據表中的屬性分成了以下3類。

① 標志符屬性

標志符屬性是指唯一標志身份的個體屬性,這種屬性必須在數據發布之前從數據表中全部抹掉,如用戶姓名、電話號碼、身份證號碼、聯系方式等。

② 敏感屬性

通常,包含了個體隱私信息的屬性稱為敏感屬性,如身體健康狀況、收入水平、年齡、籍貫等。

③ 準標志符屬性

通過某些單個屬性的連接來標志個體的唯一身份的屬性,稱為準標志符屬性,其能夠進行共享,也有可能會通過與其他的外部數據表進行連接而泄露隱私信息。

k-匿名規則:是指要求其在所發布的數據表中的每一條記錄,不能區別于其他k-1(k為正整數)條記錄,這些不能相互區分的k條記錄稱為一個等價類。

等價類:就是在準標志符上的投影完全相同的記錄所組成的等價組,它是針對非敏感屬性值而言的,是不能被區分的。

全局泛化:指對于每一個相同的簇,至少包含k個元組,它們對于簇中準標志符的屬性的取值完全相同,即屬性均被泛化。如表3所示,這是一個對于年齡屬性全局泛化的例子,年齡在所有簇中的取值相同。

表3  年齡屬性全局泛化的k-匿名表

局部泛化:指每個簇中的準標志符屬性相同,并且均大于k,但是簇間的屬性泛化后的值卻不相同。局部泛化的k-匿名表如表4所示。

表4  局部泛化的k-匿名表

在傳統k-匿名的基礎上,人們從多個方面對k-匿名進行了優化和改進。改進后的算法主要有多維k-匿名算法、Datefly 算法、Incognito 算法、Classfly 算法、Mingen 算法等。

k-匿名方法通常采用泛化和壓縮技術對原始數據進行匿名化處理以便得到滿足k-匿名規則的匿名數據,從而使得攻擊者不能根據發布的匿名數據準確地識別出目標個體的記錄。

k-匿名規則要求每個等價類中至少包含k條記錄,即匿名數據中的每條記錄都至少不能和其他k-1條記錄區分開來,這樣可以防止攻擊者根據準標志符屬性識別目標個體對應的記錄。一般k值越大對隱私的保護效果越好,但丟失的信息越多,數據還原越難。

表5給出了使用泛化技術得到的表2的k=4時的k-匿名數據(簡稱4-匿名數據)。

表5  4-匿名數據

k-匿名規則切斷了個體與數據庫中某條具體記錄的聯系,可以防止敏感屬性值泄露,而且每個個體身份被準確標志的概率最大為1/k,這在一定程度上保護了個人隱私。然而,數據表在匿名化過程中并未對敏感屬性做任何約束,這也可能會導致隱私泄露。k-匿名的泛化技術的思想是將原始數據中的記錄劃分成多個等價類,并用更抽象的值替換同一等價類中記錄的準標志符屬性值,使每個等價類中的記錄都擁有相同的準標志符屬性值。這樣,同一等價類內若敏感屬性值較為集中,甚至完全相同(可能在形式上,也可能在語義上),則即使滿足k-匿名要求,也很容易推理出與指定個體相應的敏感屬性值。除此之外,攻擊者也可以通過自己掌握的足夠的相關背景知識以很高的概率來確定敏感數據與個體的對應關系,從而導致隱私泄露。因此,攻擊者可以根據準標志符屬性值來區分同一等價類的所有記錄。

k-匿名方法的缺點在于并沒有考慮敏感屬性的多樣性問題,攻擊者可以利用一致性攻擊(homogeneity attack)和背景知識攻擊(background knowledge attack)來確認敏感數據與個人的聯系,進而導致隱私泄露。

常見的針對匿名化模型的攻擊方式有以下4種。

① 鏈接攻擊:某些數據集存在其自身的安全性,即孤立情況下不會泄露任何隱私信息,但是當惡意攻擊者利用其他存在屬性重疊的數據集進行鏈接操作時,便可能唯一識別出特定的個體,從而獲取該個體的隱私信息。將醫療信息和選舉人信息結合在一起,能夠發現兩個數據集的共有屬性,這樣,惡意攻擊者通過鏈接攻擊就能夠輕易確定選舉人的醫療信息情況。因此,該類攻擊手段會造成極其嚴重的隱私泄露。

② 同質攻擊:當通過鏈接攻擊仍然無法唯一確認個體時,存在個體對應的多條記錄擁有同一條敏感隱私信息,從而造成隱私的泄露,這一過程稱為同質攻擊。

③ 相似性攻擊:由于敏感信息往往存在敏感度類似的情況,因此攻擊者雖然無法唯一確定個體,但是如果個體對應的多條記錄擁有相似的敏感信息,則可推測出個體的大概隱私情況。例如,某個體患有極其不愿為人所知的疾病,這也屬于一種無法回避的嚴重攻擊。雖然該攻擊類似于同質攻擊,并且不如同質攻擊泄露得那么直接,但其發生的可能性極大,給被泄露者造成的心理壓力往往難以預料,因此需要特別重視此種攻擊手段。

④ 背景知識攻擊:指攻擊者掌握了某個體的某些具體信息,通過鏈接攻擊后即使只能得到某個體對應的多條信息記錄,并且記錄間的敏感屬性也完全不同或不相似,也能根據所掌握的背景知識,從多條信息記錄中找出唯一對應的信息記錄,從而獲取到該個體的隱私信息。

(a,k)-匿名規則、l-多樣性規則、t-逼近規則等算法在此基礎之上都進行了相應程度的改進。

(3)(a,k)-匿名模型

(a,k)-匿名模型是一種擴展后的k-匿名模型,其目的是保護標志屬性與敏感信息之間的關聯關系不被泄露,從而防止攻擊者根據已經知道的準標志符屬性的信息找到敏感屬性值。該模型要求發布的數據值在滿足k-匿名原則的同時,還需要保證這些數據里包含的每個等價類中任意一個敏感屬性值出現的次數與等價類個數的百分比小于a。

a表示某個敏感屬性可以接受的最大泄露概率,它所反映的是一個隱私屬性值所應該受到的保護程度,因此a的設置至關重要,它是根據每個敏感屬性值的重要程度設置的。a的數值越小,該敏感屬性值的泄露概率就越小,隱私保護程度就越高。a的數值越大,該敏感屬性值的泄露概率就越大。

例如,在處理工資信息時,需要重點關注的是超高收入人群和超低收入人群,這是因為往往這兩個群體會更加在意他們的工資信息是否被泄露。然而對于那些工資處于平均水平的人群來說,他們對個人工資信息的保護欲則較低。這種情況下,敏感屬性值就可以設置得大一些,甚至可以設為1??梢岳斫鉃樵撁舾袑傩灾蹬c保護等級相關聯。通過設定閾值a,能更加有效地防止隱私信息的泄露,從而提高隱私信息的保護程度。

如表6所示,在外部數據表中,姓名為標志符屬性,已經將其刪除。年齡、性別、國籍為準標志符屬性,年收入為敏感屬性。給定數據表RT(A1,A2,…,An),QI是與RT相關聯的準標志符。若僅在RT [QI]中出現的每個值序列,至少在RT[QI]中出現過k次,這里的k=2,則RT就滿足k-匿名。若敏感屬性中的每個取值出現的頻率都小于a,這里a設置為0.5,則RT就滿足(a,k)-匿名。

表6 (0.5,2)-匿名表

(4)l-多樣性規則

為了解決同質性攻擊和背景知識攻擊所帶來的隱私泄露問題,研究人員在k-匿名規則的基礎上提出了l-多樣性(l-diversity)規則。

如果說數據表RT′滿足k-匿名規則,且在同一等價類中的元組至少有l個不同的敏感屬性,則稱數據表RT′滿足l-多樣性規則。

l-多樣性規則建立在k-匿名規則的基礎之上,其意義在于解決屬性鏈接,降低敏感屬性和準標志屬性之間的相關聯程度。該規則除了要求等價類中的元組數大于k以外,還要滿足每組元組至少有l個不同的敏感屬性。在一定程度上而言,l-多樣性規則與(a,k)-匿名規則的意義類似。表7所示是滿足2-多樣性規則的匿名信息表,在每個等價類中,敏感屬性收入取值均大于或等于2,因此我們可以說表7滿足2-多樣性規則。

表7  2-多樣性表

同理,表5發布的數據不僅滿足4-匿名規則,這滿足3-多樣性規則,即每個等價類中至少有3個不同的敏感屬性。

顯然,l-多樣性規則仍然將原始數據中的記錄劃分成了多個等價類,并利用泛化技術使每個等價類中的記錄都擁有相同的準標志符屬性,但是l-多樣性規則要求每個等價類中至少有l個不同的敏感屬性。因此,l-多樣性規則會使得攻擊者最多以1/l的概率確認某個體的敏感信息。

此外,l-多樣性規則仍然采用泛化技術來得到滿足隱私要求的匿名數據,而泛化技術的根本缺點在于丟失了原始數據中的大量信息。因此l-多樣性規則仍未解決k-匿名規則會丟失原始數據中的大量信息這一問題。另外,l-多樣性規則還不能阻止相似攻擊(similarity attack)。

(5)t-逼近規則

t-逼近(t-closeness)規則要求匿名數據中的每個等價類中敏感屬性值的分布接近于原始數據中的敏感屬性值的分布,兩個分布之間的距離不超過閾值t。t-closeness規則可以保證每個等價類中的敏感屬性值具有多樣性的同時在語義上也不相似,從而使其自身能夠阻止相似攻擊。但是,t-closeness規則只能防止屬性泄露,卻不能防止身份泄露。因此,t-closeness規則通常與k-匿名規則同時使用以防止身份泄露。另外,t-closeness規則仍是采用泛化技術的隱私規則,在很大程度上降低了數據發布的精度。

(6)Anatomy方法

Anatomy是肖小奎等人提出的一種高精度的數據發布隱私保護方法。Anatomy首先利用原始數據產生滿足l-多樣性規則的數據劃分,然后將結果分成兩張數據表發布,一張表包含每個記錄的準標志符屬性值和該記錄的等價類ID,另一張表包含等價類ID、每個等價類的敏感屬性值及其計數。這種將結果“切開”發布的方法,在提高準標志符屬性值的同時,保證了發布的數據滿足l-多樣性規則,對敏感數據提供了較好的保護。 

 

責任編輯:龐桂玉 來源: 計算機與網絡安全
相關推薦

2021-01-12 09:40:05

物聯網安全軌跡隱私服務器

2021-01-06 13:35:08

物聯網安全位置隱私Wi-Fi

2021-01-14 12:01:29

物聯網隱私網絡安全

2019-01-03 08:29:30

2021-06-23 10:12:00

物聯網隱私保護IoT

2019-04-08 11:18:09

2021-01-05 18:46:45

物聯網物聯網安全

2018-05-22 08:41:48

2022-09-08 16:30:44

物聯網保護隱私

2023-03-28 15:59:49

2020-06-08 08:39:40

物聯網安全隱私標簽物聯網

2021-04-16 14:14:26

物聯網安全技巧

2018-05-14 23:38:42

2022-04-08 10:18:28

隱私物聯網IOT

2020-12-08 06:00:00

物聯網物聯網安全數據安全

2021-01-13 12:10:09

物聯網隱私網絡安全

2014-04-18 10:18:15

2019-02-21 05:04:58

2022-01-03 00:15:06

安全網絡物聯網

2019-04-15 14:06:12

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩视频区 | 欧美一级黄色网 | 在线欧美小视频 | 亚洲美女天堂网 | 欧美精品在线一区二区三区 | 欧美午夜一区 | 国产精品一区二区视频 | 国产精品高潮呻吟久久av野狼 | 国产精品久久久亚洲 | 亚洲一区视频在线 | 午夜影院 | 午夜精品在线观看 | 国产精品一区在线播放 | 成人精品一区二区 | 久在线| 日韩有码一区二区三区 | 久久99精品久久久水蜜桃 | 女同久久另类99精品国产 | 日韩精品一区二区三区在线观看 | 国产精品国产a级 | 午夜影院污 | 伊人艹 | 婷婷久久精品一区二区 | 欧美日韩不卡在线 | 欧美一二三| 久久国产精品视频 | 国产精品久久久久久久久久免费看 | 亚洲欧美日韩精品久久亚洲区 | 婷婷开心激情综合五月天 | 亚洲欧洲一区二区 | 久久爱综合| 在线看免费的a | 国产精品久久国产精品 | 国产精品国产精品国产专区不卡 | 久久久噜噜噜久久中文字幕色伊伊 | 午夜影院官网 | 最新高清无码专区 | 成人免费小视频 | 日韩网站免费观看 | 国产高清免费视频 | 伊人精品久久久久77777 |