成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從隱私到隱私計算

原創 精選
安全 數據安全
在IT領域,隱私是一個抽象的概念,不能代替具體事物或人的行為,只是它們所反映出來的信息。也就是說,隱私本質上是一種信息,一種屬于私人不愿為他人知曉或干涉的信息。例如電子郵件、即時通信的內容等,這些工具本身并不是隱私,只是其中記載并反映出來的信息才是隱私。

對于個人電子產品而言,例如手機,平板電腦,便攜式電腦等等,或多或少,都會涉及到隱私計算,那么什么是隱私計算呢?理解隱私計算,先要澄清“隱私”的概念,那么,什么是隱私呢?進而,明確隱私計算分別與隱私和計算之間的關系,即隱私計算是為了實現個人隱私保護而進行的計算還是在實現了隱私保護的前提下進行的計算?最后,才是隱私計算涉及的技術和方法。

1. 什么是隱私?

“隱私”一詞在中國最早出現于周朝初年,但在當時,它的詞義和現代還有些不同,“隱私”在當時的意思是衣服,也就是把私處藏起來的東西。

現在,隱私一般指個人的不愿公開的私事或秘密。隱私由“隱”和“私”兩個字組成,在漢語中,“隱”是隱避、隱藏,在《荀子·王制》中有“故近者不隱其能,遠者不疾其勞”的語句,“隱”即為不公開。“私”是個人的、自己的,在《詩·小雅·大田》有“雨我公田,遂及我私”。在英語中,隱私一詞是“privacy”,在牛津詞典中解釋為獨處、秘密和不受公眾干擾的狀態,與漢語的意思基本相同。但漢語的“隱私”強調了隱私的主觀色彩,而英語的“privacy”更注重隱私的客觀性,體現了東西方的文明差異。

一般地,隱私可以分為身體隱私、行為隱私、身份隱私、名譽隱私、肖像隱私、個人收入隱私和個人經歷隱私。隱私的主體是自然人,客體是自然人的個人事務,個人信息和個人領域,目的是指特定個人對其事務、信息或領域不愿他人探知或干涉。

在IT領域,隱私是一個抽象的概念,不能代替具體事物或人的行為,只是它們所反映出來的信息。也就是說,隱私本質上是一種信息,一種屬于私人不愿為他人知曉或干涉的信息。例如電子郵件、即時通信的內容等,這些工具本身并不是隱私,只是其中記載并反映出來的信息才是隱私。

2. 什么是隱私保護?

隱私保護原本是個人的行為,是為了提高個體的安全,其根本原因在于隱私數據所有權和使用權的分離。

例如,對于大多數人而言,姓名和性別是他們的公共屬性,而且通常愿意揭示它們,不屬于隱私。在某些情況下,個人的年齡,身高和體重可能是隱私數據。但是有時同樣要公開,例如看病的時候,一個醫生需要知道病人身體和精神上的細節,如果需要會診,這些隱私數據還會開放給一組醫生,醫生們需要使用這些數據對病情進行診斷。

也就是說,個人隱私數據可能需要提供給某些群體,所有權和使用權產生了分離,所以需要加以保護,以免被不必要的人看到。這些團體可能會有意無意地對個人隱私數據進行擴散,甚至會造成濫用,進而可能對個人的生活產生不良影響,所以需要隱私保護。

對隱私保護的直觀方式是什么都不透露,但這幾乎是不切實際的。隨著時間的推移,隱私的概念已經發生了演變。有人建議隱私不能進入數據庫,即從數據庫中無法了解任何關于個人的信息,也有人強調,個人的隱私可以被視為“隱藏在人群中”,更一般的看法是,信息收集和傳播應適合于確定的場景,并遵守有關信息傳播的規范。

那么如何明確隱私保護中的場景?換句話說,隱私保護中的風險點都有哪些呢?

3. 隱私保護中的風險點

在隱私保護中,大約有3個主要的風險點:信息披露,數據處理以及隱私與實用性間的矛盾。

這里還是以看病的場景為例。醫院使用數據庫來保存病人的記錄,該數據庫由多個表組成,這些表存儲了患者的個人信息、病史和醫院所需的其他細節,例如身份證號、姓名、民族、性別、家庭住址、婚姻狀況和診斷出的疾病等。其中包括了個人身份信息和具體事務的信息,都涉及了隱私數據。這些數據極為重要,是醫療服務的基礎,除了記錄了治療的結果之外,還能應用于研究和提高藥物的效力以及監測并限制疾病的傳播等等。然而,未經授權披露醫療數據可能會侵犯患者隱私,而且這種侵犯可能會造成經濟、精神和社會影響。例如,一些疾病的披露會嚴重影響患者過正常生活的能力。個人信息數據的泄露,比如信用卡信息,可能導致欺詐性的網上支付。因此,數據的安全性和隱私性都至關重要。

如果隱私提供了一個手機App讓患者填寫個人信息,那么個人信息是安全的嗎?除了關于病情的信息,為什么還要收集其他信息?誰能接觸到這些數據?如果醫院把這些數據分享給第三方呢?

3.1 信息披露風險

在任何數據集中,個人信息披露都是密切相關的,可按嚴重程度排序如下:

關系資格的披露 << 敏感屬性披露 << 標識信息的披露

按照給定的順序,每個都可能包含在另一個信息中。由于風險被定義為“披露的可能性”乘以“披露的影響”,那么如果披露確實發生,這些披露中的任何一個都可能比另外兩個帶來更大的風險,這取決于整體情況。

在醫院的示例中,關系資格的披露相當于公開了一個人是某醫院的患者,敏感屬性披露相當于公開了一個人得了某種的疾病,標識信息的披露相當于公開了一個人的身份信息。在當前新冠信息的披露中,一般不包含標識信息的披露。醫院作為授權用戶,應該有足夠的安全控制,防止未經授權的用戶訪問數據,從而保護個人數據,保護個人隱私。即便如此,也不是醫院中的每位醫生都能訪問所有個人數據的。

在考慮披露風險時,需要注意的是,面向安全時假定了用戶和攻擊者是不同的,而面向隱私時合法用戶也可能是攻擊者,城堡很多是從內部攻破的。對于安全性,可以通過安全控制來減輕未授權用戶的惡意意圖,而對于隱私性,則需要一組不同的控制。因此,一個好的安全框架并不足以保證隱私。

3.2 數據處理風險

為了減輕信息披露的風險,是否可以刪除個人身份信息呢?

個人身份信息不能被物理刪除,否則無法實現目標的業務邏輯。實際上,刪除可以實現為“用虛擬值替換”,以滿足數據庫或應用程序的約束和要求。這似乎是一個有希望的解決方案,因為數據集中可能的成員關系和身份都沒有顯示。這樣能保護個人的隱私嗎?遺憾的是,事實并非如此,因為可以通過數據處理時這種替換關系的“連接”,識別出了大多數數據對象。因此,僅僅刪除個人身份信息并不能保證隱私。

如果敏感數據被進一步清洗還存在風險么?

一般地,關系資格數據對個人而言,隱私的重要程度可能沒有那么高。例如,我可能不介意我曾是友誼醫院的患者,但是會介意我去醫院看了什么病。為了克服這個問題,對敏感值進行逐列重組似乎是一種可能的解決方案。然而,這并不起太大作用,因為即使數值亂序,它們的分布仍然是相同的,這可能足以推斷出個人的敏感數據,當數據分布不均時尤其如此。

如果所有東西都被移除了呢?

將所有記錄替換為接近原始數據的合成數據可以保護隱私,因為這些數據并不指向現實世界中的任何個人。綜合數據保留了原始數據的結構和特征屬性。利用生成對抗網絡(GAN)等技術,現在可以生成具有真實數據特性的合成數據。但它的局限性在于所得結果的準確性有損失,因此,這種方法并不適用于某些應用場合。例如,在就醫的場景中,用于癌細胞預測的機器學習模型需要非常高的準確性與精度。在這種情況下,完全依賴綜合生成的數據可能會造成不同的漏洞。

3.3 隱私與實用性間的矛盾

隱私與實用性之間是矛盾的,向授權用戶提供數據訪問是有益的。隱私的挑戰是在完全公開的數據和完全保留的數據之間找到平衡。當原始數據完全共享時,它的實用性最大,但隱私性最小; 當不披露任何信息時,隱私性最大,但實用性有限。正像百度Robin曾經說過的那樣“用戶在一定程度上愿意用隱私換方便和效率”,盡管遭到了無數人黑,但是他只是說出了事情的真相而已。

理想的解決方案是將隱私和實用性都提高到最大可能的水平。由于隱私權和實用性要求的沖突,這是非常具有挑戰性的。這要求我們能夠在隱私和實用性之間取得平衡,使用技術手段在特定環境中分享有用的個人數據,并防止侵犯個人的隱私。

那么,有哪些不同的隱私保護技術? 這些技術在實踐中是如何應用的呢?

4. 隱私保護的技術

4.1 匿名技術

傳統方法,如隨機化,數據亂序和數據變換已經能夠在一定程度上保護隱私,但數據公開的風險仍然存在。匿名技術是一種保護隱私的技術,它克服了傳統方法的局限性。

匿名技術實際上是讓一個人“泯然眾人矣”。那么,“眾人”是幾個人呢?這就是k 匿名化技術背后的一個理念,使得 k 條記錄在數據集中看起來相似的,也就是說,每個人的隱私數據隱藏在 k 個相似的記錄中。如果一個人的信息無法與其他信息也出現在數據中的 k-1個人區分開來,那么已發布的數據具有 k 匿名性。k 匿名化技術緩解了鏈接攻擊的風險。

標識符的轉換可以通過泛化和抑制等技術來實現。對于抑制,屬性的部分或全部值可以替換為 * ,對于泛化,屬性的單個值被表示更廣泛范圍或類別的值替換,例如,很多網絡應用在顯示用戶手機號時都用”*”來替代了號碼中的中間4位。更高的通用性允許映射更多的記錄,從而實現更高級別的隱私,盡管這可能會顯著影響數據實用性。此外,對屬性使用單一策略泛化所有記錄可能不是最佳策略。這種保護隱私的數據轉換稱為重新編碼。在全局編碼中,特定的詳細值必須映射到所有記錄中相同的通用值。本地編碼允許將相同的詳細值映射到每個匿名組中不同的通用值。

盡管數據的 k 匿名化可以防止鏈接攻擊,并且攻擊者不能高度確定地鏈接到其他數據庫,但是它仍然可能揭示敏感信息。這被稱為同質性攻擊,其中所有 k 個體具有相同的敏感值。類似地,如果攻擊者有關于某個人的額外信息,則可能以很高的概率重新識別該記錄,從而導致背景知識攻擊。因此,k 匿名并不能提供任何針對這種攻擊的科學保證。

最佳 k 匿名性是否可以通過修改最小數量的數據來實現?對于多維數據來說,實現最佳 k 匿名性是一個 NP 難題。此外,選擇 k 作為可接受的 k 匿名性水平提出了另一個挑戰。為了實現 k 匿名性,在記錄的泛化或抑制過程中會丟失信息,泛化程度越高,效用越低。

為了克服其中的缺點,人們提出了不同的 k 匿名技術。L多樣性就是這樣一種變體,其中任何敏感屬性在每個群體中都應該有 l 個不同的值。這可以確保敏感屬性得到很好的表示,但是它也涉及到抑制或添加可能會改變數據的分布。這種抑制或添加引起了對從數據集中得出的統計結論有效性的關注,任意 k子集中敏感屬性的分布不僅是 l多樣性的,而且接近于整個數據集中屬性的分布。此外,這兩個分布之間的距離是通過閾值 t 來測量的。數據的維度仍然是一個挑戰,對于像時間序列這樣的高維數據,提供與低維數據相同的隱私保護是相當困難的。

匿名技術已經在隱私中敏感數據發布場景中有了很多實現,應用范圍已經從關系數據庫擴展到圖等匿名組合結構。

本部分討論 k 匿名的選擇,發布匿名數據的一些實際問題,準標識符,實現期望的匿名的理想泛化量,以及如何有效地 k 匿名。

4.1.1 K 的正確選擇

在美國,健康保險便利和責任法案為保護敏感的患者數據設定了標準,將20,000定義為 k 匿名性的 k 的標準值。而家庭教育權利和隱私法案為保護學生及其家庭的個人信息制定了標準。建議 k 的值為5或10,以防止披露。這顯示了在選擇 k 時的不同。

K 的選擇是根據這些管理授權對應用程序進行預定義的。然而,對于沒有監管要求的應用程序,選擇 k 來提供正確的隱私級別與效用權衡是一個挑戰。選擇 k 的一種方法是在一定范圍內改變 k 的值,并確定數據集的廣義信息損失(效用度量)的變化。因此,可接受的廣義信息損失對應的 k 值是合適的選擇。

盡管如此,找到 k 的最佳值仍然是一個懸而未決的問題,目前的研究包括了概率模型和多目標優化模型等。近似算法可以實現 k 匿名,但不能擴展。另一方面,概率方法 k 匿名技術使用動態規劃提供了一個時間最優的 k 匿名算法。啟發式方法也可以產生有效的結果。目前的重點是人工智能驅動的分析,但是,隱私和數據保護的定義已經發生了明顯的變化,這表明需要提供更強大的保障,并為不同的應用提供更廣泛的范圍。

4.1.2 準標識符的識別

準標識符的識別是一個主要問題,因為它直接影響 k 匿名技術的有效性。如果可以標識可變屬性集的記錄數,這些屬性集可能是潛在的準標識符。隨著信息的增加,大量的記錄可能變得可識別。

隨著數據維數的增加,準標識符的選擇會變得更加復雜。這個問題也變得更具挑戰性,因為其他人公布的額外數據存在不確定性。在這種情況下,一些已發布的屬性必須被視為準標識符。

4.1.3 實現所需匿名化的理想泛化量

理想的泛化量取決于公開可用的信息。一些組織在公共領域公布信息,以實現更大的透明度,并使人們更容易獲得其數據。這些組織可能無意中發布了不應該提供的信息。這為私有聚合提供了濫用此類信息的機會。因此,發布個人數據的組織必須采用極端的一般化方法,以防止通過鏈接攻擊重新識別身份。

鏈接攻擊表明,僅僅刪除標識符并不能保護隱私。因此,k 匿名已經成為一種突出的隱私保護技術。在這里,泛化是在真實信息上執行的,這使得它比其他策略更容易被接受。此外,k 匿名及其變體可以限制鏈接、同質性和背景攻擊。從工業的角度來看,k 匿名已經獲得了更廣泛的知名度。

匿名技術確實有一些缺點,比如信息丟失。此外,泛化需要為數據集中的每個準標識符建立一個分類樹,這需要領域專家的干預,即使分類是自動生成的。此外,根據用例的不同,每個屬性的泛化級別可能會有所不同。

隨著計算能力的提高和數字數據集的可用性,個人數據被重新識別的風險仍然存在。

4.2 差分隱私技術

假設在共享數據之前,注入一些噪聲,或者創建一個具有與原始數據集相同的統計屬性的合成數據集。那么,很有可能使隱私可以得到保護。差分隱私技術就是通過注入精心校準的隨機噪音來使數據不真實,從而保護個人隱私的技術。差分隱私技術的獨創性在于允許從數據集中抽取有意義的分析,同時保護個人隱私。然而,其局限在于,沒有直接訪問數據集就很難學習關于個人的任何東西。

在典型的差分隱私技術中,數據管理員被認為是值得信賴的,并充當中心主體,他持有組成數據集的個人數據。使用可信的管理員,差分隱私技術可以以兩種模式之一進行操作:在線或交互模式或離線非交互模式。在在線交互模式中,數據分析師自適應地查詢數據集,查詢是應用于數據集的函數,每個查詢都會產生無關的響應,從而保護了隱私。在離線非交互模式下,管理員使用與原始數據集具有相同統計特性的差分隱私機制生成合成數據庫。發布數據后,v不再扮演任何角色,原始數據甚至可能被銷毀。因此,使用合成數據庫,重新識別個體變得困難。此外,這樣的合成數據可以共享用于執行質量分析。

4.2.1 差分隱私技術的原理

考慮一個算法,該算法分析數據集并計算統計屬性,如均值、方差、中值和模式。如果通過查看輸出,人們無法判斷原始數據集中是否包含任何個人數據,那么這種算法被稱為差異私有算法。換句話說,差分私有算法的保證是它的行為幾乎不會隨著數據集中個體的缺失或存在而改變。最值得注意的是,這種保證適用于任何個體和任何數據集。因此,不管個人的細節有多么獨特,也不管數據集中其他任何人的細節如何,差分隱私技術的保證仍然有效。

在數學上,差分隱私算法可以定義如下: 如果對于所有數據集,D1和 D2最多在一個元素上不同,并且所有的 S是Range (M) 的子集,在隨機函數 M 得到了 ε 的差分隱私。因此:

Pr[M(D1) ε S] ≤ exp(ε) x Pr[M(D2) ε S]

數據集 D1中管理員輸出的 M (D1)分布與數據集 D2中的 M (D2)幾乎相同,數據集 D1和 D2只有一個個體的記錄不同,而 M 是保證 ε微分隱私的隨機化算法: ε 決定了兩個數據集 D1和 D2的不可區分性,即對兩個數據庫集的查詢響應偏差由 ε 決定。這就提供了一個保證,即關于數據集中參與者的個人信息不會被泄露。差分隱私技術避免了關系資格數據,同時也使其他信息披露風險難以發生。

差分隱私技術的關鍵特征在于,它將隱私定義為使用參數 ε 的可量化度量,而不是二元邏輯,例如個人數據是否泄露。本質上,ε 決定了計算中增加了多少噪聲,因此它可以被視為一個平衡私密性和實用性的調諧旋鈕。可以對每個不同的私有分析進行調優,以提供更多或更少的隱私。

4.2.2 差分隱私技術的實現

差分私有算法是在關鍵點增加噪聲的隨機算法。在具體實現上,拉普拉斯機制可以使聚合查詢(例如,count、 sum、 means 等)具有不同的私有性。這種方法使用以0為中心、以1/ε 為比例的拉普拉斯概率分布來對隨機噪聲進行采樣,通過添加獲得的噪聲擾動實際值會導致屏蔽響應。

還是以醫院的場景為例,假設醫院保存了通過醫療應用程序收集的癌癥患者的數據。現在,如果某個醫生想知道小明是否是癌癥患者,通過精心設計多個查詢才可以。例如,如果使用 COUNT 查詢,結果是30,如果第二個不包括小明的統計查詢是29,那么可以得出小明是癌癥患者的結論。如果第二個 COUNT 查詢結果是30,將得出相反的結論。

有許多相關算法的機制可以代替拉普拉斯機制,例如,指數機制、私有倍增權重算法或倍增權重指數算法等等。有了這樣的機制,基于差分隱私技術的軟件系統是可能實現的,但仍存在實際的挑戰。例如,如果相同的查詢總是接收相同的噪聲響應,那么它需要查找歷史響應的日志。由于答案保持不變,因此不會發生信息泄漏,但日志查找在空間和時間方面可能代價高昂。

4.2.3 差分隱私技術的局限

眾所周知,建立兩個查詢的等價性在計算上是困難的。因此,盡管與傳統的隱私保護方法相比,差分隱私技術有一些優勢,但也存在一定的局限性。首先,在保護隱私的同時,確定理想的隱私損失參數 ε 具有較高的效用仍然是一個挑戰。其次,差分隱私技術中的隱私保障僅適用于有限數量的查詢,這是數據集中表示的不同數據數量的函數。因此,設計能夠處理任意數量查詢的隱私保護機制同樣是一個挑戰。另外,差分隱私技術容易受到側信道攻擊,在這種攻擊中,對手可以通過監視側信道來了解有關數據的事實。一個典型的例子是定時通道攻擊,如果一個人患有癌癥,查詢計算將花費51μs,否則將花費49μs,那么,僅僅通過觀察花費的時間就可以知道一個人是否患有癌癥。最后,敏感數據被公開仍然是可能的,例如,壞人可以在隱私數據集上構建分類器,以預測敏感信息。

以上討論的前提是數據管理員是可信的, 如果數據管理員是不可信的,這就要求采用本地差分隱私技術。也就是說,噪聲是局部注入的,在每個數據主體的個體層次上實現噪聲注入,這樣,隱私控制就留給了數據主體。

此外,通過 GDPR等隱私法規,大型組織使用本地差分隱私技術來避免因濫用存儲敏感用戶數據而產生的責任。因此,基于信任假設,本地差分隱私技術更具吸引力。然而,使用本地差分隱私技術發布的統計信息效用要比使用標準差分隱私技術發布的效用差,因為擾動發生在每個個體的末端,導致了更大的噪聲附加。

4.2.4 差分隱私技術的應用

差分隱私技術在許多應用領域有著更廣泛的作用,包括物理網絡系統,如智能電網系統、醫療保健系統、物聯網、自主汽車系統等。在智能電網系統中,電力供應商使用智能電表記錄和維護家庭能源消耗信息。這些信息可以揭示一個家庭的生活方式和其他細節,濫用可能侵犯消費者的隱私。因此,有必要將隱私保護技術融入到這樣的系統中。同樣,對于醫療保健和醫療系統,物聯網設備收集的數據,如血壓、血糖水平,有時甚至是位置節,也需要以隱私保護的方式獲取。

在各種應用服務中,微軟使用本地差分隱私技術在 Windows 的應用程序中保護用戶隱私。蘋果同樣使用該技術在給定的時間段內保護用戶活動的隱私,同時仍能獲得有助于提高 QuickType 等功能的智能性和可用性的數據。谷歌的Chrome 中,以一種隱私敏感的方式獲取關于軟件如何劫持用戶設置的數據。另外,IBM 和 Google 都提供了用于以差分隱私技術感知的方式執行機器學習任務的庫。

有了差分隱私技術,隱私數據是否得到了足夠的保護呢?這取決于 ε。當 ε ≤1時,差分隱私技術輸出的數據效用可能較差。解決這個問題的一種方法是使用一個非常大的 ε 值來減輕效用問題。據報道,蘋果在 MacOS 中使用 ε = 6,甚至在 iOS 10 beta 版本中使用了 ε = 43,而在谷歌在chrome中的 ε 為9。這表明差分隱私技術在實踐中的適用性仍然是一個挑戰,因為 ε=9這樣大的值使隱私保障大大降低了。

對數據隱私的需求已經從數據發布的標準用例展開到隱私驅動的分析。在這里,DP 獲得了重大關注,因為它提供了數學保證。然而,在將 DP 的理論映射到實踐中還存在一些挑戰。

4.2.5 實踐中的挑戰

理想的差分隱私技術應該能夠減輕公開敏感數據的威脅和風險,同時保持數據高實用性。對隱私的要求總是取決于具體的場景,當數據控制器是可信實體時,可以使用標準差分隱私技術; 如果數據控制器是不可信的,則使用本地差分隱私技術。在這兩種情況下,不同的機制都能防止惡意數據分析人員泄露敏感信息。因此,根據用例及其對隱私和應用程序的要求,可以選擇合適的差分隱私技術設置。

沒有一種通用機制對所有用例都是有效的。拉普拉斯機制只能用于數字查詢,而指數機制可以同時處理查詢中的數字和分類數據。因此,機制的適用性會根據用例和數據類型而變化。也就是說,許多差分隱私算法只適用于特定的用例。

ε 的值可以用來確定隱私級別。ε 值越小,隱私性越好,但結果的準確性可能受到影響。從隱私角度來看,ε 大于6可能并不好。雖然這確實是一個很好的目標,但是考慮到用例的細微差別,這通常是不可能實現的。此外,ε 的選擇可能因應用程序而異,這取決于在該場景中對隱私的需求。一般來說,像“ ε 的值是多少才合適”就像“多少隱私才夠”這樣的問題一樣,沒有答案。

隱私數據損失是累積增加的,對于每個新的查詢,隨著敏感數據的附加信息被釋放,隱私保護會減少。這意味著經過一定數量的查詢之后,應用程序可能提供不了隱私保護了。理想情況下,對于強大的隱私保障,隱私損失應該很小。因此,為了減輕日益增長的隱私損失,可以強制執行由隱私預算表示的最大隱私損失。每個查詢都可以被視為隱私??,這會導致隱私損失的增加。如果查詢的數量超過了隱私預算的閾值,那么可以停止對查詢的響應,從而停止了差分隱私的機制。

因此,出于隱私和實用性方面的考慮,差分隱私技術可能不適合長時間運行的系統。

4.3 新興的隱私保護技術

許多國際組織把保護隱私作為一項基本要求,規定了一些原則,如收集限制、數據質量、用途限制、使用限制、安全保障、公開性、個人參與和問責制。這些原則有助于管理系統生命周期中的隱私需求。

隨著系統復雜性的增加,存儲單元和計算單元可能不集中,減少隱私披露風險是具有挑戰性的。這樣的系統,例如基于物聯網傳感器、可穿戴計算設備、移動計算和智能儀表的系統,需要更強大的隱私技術和協議。此類隱私技術應考慮部署體系結構、計算系統中各個節點的可用性、敏感數據流和威脅模型。

4.3.1 分布式環境的隱私保護

再次以醫院為例,為了在保護隱私的同時建立疾病預測的全局模型,需要對每個用戶移動設備上的本地數據進行本地模型的訓練。所學習的模型參數由每個用戶設備發送到云服務器,在云服務器上執行聚合以構建全局模型。這個學到的全局模型被推送到每個用戶的移動設備上進行預測。這就是簡單的聯邦學習架構。

物聯網的數據分析進一步擴展了這些分布式體系結構。例如,在邊緣計算中,繁重的計算任務被轉移到邊緣節點,而物聯網傳感器等客戶端設備被分配一個輕量級任務,其輸出被用于在邊緣節點執行重量級任務。本地差分隱私混淆處理框架可能會確保數據隱私和邊緣計算的數據實用性。

本地差分隱私混淆處理框架的基本方法仍然是增加噪聲以防止私人信息泄露。然而,加入噪聲可能會降低數據的效用,而特征蒸餾模型或許可以限制了個人數據的收集,同時仍然使數據效用的最大化。這一框架的基礎組件涉及使用數據最小化學習數據的特征,并使用本地差分隱私技術擾亂這些已識別的特征以保護隱私。此外,使用不同的哈希函數將這些特征匿名化為 k 位字符串,以便轉換生成唯一的字符串。最后,數據傳輸到邊緣服務器,在邊緣服務器上使用哈希函數進行特征重建和分布估計,從而防止敏感屬性被暴露。

4.3.2 數據隱私的加密技術

除了聯邦學習類型的分布式架構,全同態加密和多方安全計算也同樣是可用于隱私數據保護的加密技術。

全同態加密是一種加密方案,它使分析函數能夠直接在加密數據上運行,同時產生與在明文上執行的函數相同的加密結果。盡管從安全和隱私的角度來看這是令人興奮的,但是在目前的技術水平下,完全同態加密的計算速度比同等的明文計算慢了若干數量級。即便如此,也已經是一個很大的改善。鑒于 FHE 對云計算的潛在好處,完全同態加密技術的標準化正在進行中。

多方安全計算允許多方對其隱私數據進行計算,以評估共同感興趣的特征, 高度適用于機器學習,因為它允許公司提供其模型,對客戶的隱私數據進行推斷,同時確保最大限度的隱私。多方安全計算中許多涉及了大量的消息傳遞開銷,開發廉價、高效和有效的多方安全計算技術的研究正在進行中。

人們也在試圖結合這兩種技術,嘗試提出具有可接受的時間和通信復雜度的混合方案。

5. 隱私計算

一般地, 對隱私計算有不同的理解。一種是隱私計算是隱私保護的一部分,為了實現隱私保護而采用的技術。另一種是對隱私保護的數據進行計算,側重在隱私數據應用的層面。更一般的觀點認為隱私計算是以上兩種的融合,是指在保護數據本身不對外泄露的前提下實現數據分析計算的技術集合,在充分保護數據和隱私安全的前提下,實現數據價值的轉化和釋放。簡單來說,就是既要發揮數據價值,又要保護數據隱私的技術。

5.1 隱私計算的發展

隱私計算的發展歷程如下圖所示:

圖片

5.2 隱私計算的概念界定

2016年,中國科學院信息工程研究所研究員李鳳華等對隱私計算在概念上進行了界定:

隱私計算是面向隱私信息全生命周期保護的計算理論和方法,具體是指在處理視頻、音頻、圖像、圖形、文字、數字、泛在網絡行為信息流等信息時,對所涉及的隱私信息進行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標準的隱私計算理論、算法及應用技術,支持多系統融合的隱私信息保護。

隱私計算涵蓋信息所有者、搜集者、發布者和使用者在信息采集、存儲、處理、發布(含交換)、銷毀等全生命周期中的所有計算操作,是隱私信息的所有權、管理權和使用權分離時隱私描述、度量、保護、效果評估、延伸控制、隱私泄露收益損失比、隱私分析復雜性等方面的可計算模型與公理化系統。

同時,中國信通院根據數據的生命周期,將隱私計算技術分為數據存儲、數據傳輸、數據計算過程、數據計算結果4個方面,每個方面都涉及不同的技術。

5.3  隱私計算的技術參考架構

在2021年, 在騰訊隱私計算白皮書中給出了隱私計算的技術架構參考:

圖片

5.4 隱私計算的技術路徑

隱私計算技術和方案的種類較多,為了便于理解和分類,業界通常將上述技術分為三大路徑:以安全多方計算為代表的密碼學路徑、以可信任執行環境為代表的硬件路徑和以聯邦學習為代表的人工智能路徑。

多方安全計算是基于密碼學的算法協議來實現隱私計算,是多種密碼學基礎工具的綜合應用,凡可用于實現多方安全計算的密碼學算法都可以構成多方安全協議。除秘密共享、不經意傳輸、混淆電路、差分隱私等密碼學經典計算協議外,同態加密、零知識證明等密碼學算法都可以構成多方安全計算協議。為解決諸如如聯合統計、聯合查詢、聯合建模、聯合預警等特定問題,不同的技術人員或組織有時會采用不同的算法設計多方安全協議,但性能和技術優劣有所差異。多方安全計算可與可信執行環境等硬件技術結合進一步強化安全性。

可信執行環境通過軟硬件方法在中央處理器中構建一個安全區域,保證其內部加載的程序和數據在機密性和完整性上得到保護。可信的中央處理器一般是指可信執行控制單元已被預置集成的商用CPU計算芯片,無法后置,因此,只有新研發的部分芯片支持TEE。目前主流的TEE技術以X86指令集架構的Inter SGX和ARM指令集架構的TrustZone為代表,國產芯片廠商起步稍晚,處理性能略差。

聯邦學習是一個機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模,主要解決的是多機構之間數據孤島的問題。具體地,可以分為橫向聯邦、縱向聯邦和遷移學習。橫向聯邦的核心是增加樣本量,適用于維度類似情形,優點是容易實現,問題是存在數據異構的情況。縱向聯邦的核心是增加數據維度,適用于人群重疊但維度不同的情形。優點是提升模型效果較為明顯,問題是實現困難且目標變量僅存在一家機構,不容易形成合作。遷移學習適用于場景類似但是一個擁有數據,一個沒有數據的場景。遷移的方式使用的類似縱向聯邦學習,可以實現從無法建立模型到完成模型搭建的過程。問題是實現較為困難,模型效果一般,使用范圍較小。

下圖是Gartner 在2021年發布的隱私計算技術成熟度曲線:

圖片

信息保護領域,沒有絕對的安全,只有相對的安全。雖然當前的隱私計算技術并未被證明“絕對的安全”,但它已經在現有做法基礎上向前邁進了一大步。在個人信息保護法倒逼數據安全的大環境下,隱私計算為個人信息保護提供了更為可靠的技術方案,也是目前諸多方案中最好的解決方案。

6.小結

隨著世界信息的數字化,個人信息的隱私已經成為個人和組織關注的重要問題。組織理解并解決任何涉及數據的活動所附帶的隱私問題是至關重要的。根據場景的不同,各種隱私保護技術有著不同的優點和缺點。“沒有銀彈”,不存在保障隱私的通用方法,隱私計算可以在很大程度上避免隱私被侵犯所造成的潛在損害。

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關推薦

2023-07-12 08:41:41

隱私計劃管理

2022-07-29 14:31:18

隱私計算

2023-07-30 22:34:56

隱私保護檢索

2023-05-15 15:53:25

2023-07-26 07:21:27

2022-10-30 21:48:36

2022-09-12 20:31:54

隱私計算AI數據

2022-07-15 12:17:10

隱私計算

2021-09-18 23:21:21

區塊鏈安全信息數據

2021-09-07 09:56:28

數據安全隱私保護數據價值

2022-07-14 18:46:13

螞蟻集團隱語開源

2022-02-21 10:36:29

隱私應用技術

2020-08-11 12:58:46

AI 數據人工智能

2022-08-04 13:31:40

數據安全隱私計算個人信息

2021-09-15 14:21:16

數據安全大數據技術

2010-08-26 14:03:23

隱私保護

2015-11-23 17:40:58

2011-09-01 11:08:38

云計算服務

2022-06-10 15:04:46

隱私計算Web3.0區塊鏈

2022-06-09 14:45:30

計算隱私數字化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产91久久久久青草 | 黄网站免费入口 | 雨宫琴音一区二区在线 | 九九色九九 | 午夜视频在线观看一区二区 | 亚洲成人网在线播放 | 日本不卡一区二区三区在线观看 | 美女黄色在线观看 | 91精品国产综合久久小仙女图片 | 久久国产一区二区 | 亚洲高清在线观看 | 黑人巨大精品欧美一区二区一视频 | 中文字幕一区二区三区四区 | 亚洲精品国产a久久久久久 中文字幕一区二区三区四区五区 | 午夜三区 | 日韩国产中文字幕 | 国产乱肥老妇国产一区二 | 日本视频在线播放 | 亚洲精品二三区 | 欧美aⅴ| 亚洲狠狠 | 先锋资源在线 | 久久精品视频播放 | 自拍偷拍亚洲欧美 | 日本一卡精品视频免费 | 日韩一区av| 成人午夜 | 国产精品色综合 | a黄视频| 精品精品| 成人在线免费观看视频 | 最新国产视频 | 亚洲精品电影网在线观看 | 亚洲色图第一页 | 超碰免费在线 | 国产欧美在线播放 | 色偷偷人人澡人人爽人人模 | 成年人免费在线视频 | 久久99视频 | 欧美精品一二三区 | 凹凸日日摸日日碰夜夜 |