成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學:合成數據如何解決匿名化問題?

大數據
現在,隨著GDPR的生效,企業在保護數據時必須格外小心。傳統匿名通常不是真正的匿名,最終個人身份是可以識別的。對數據添加額外級別匿名化的一種方法是引入合成數據。

現在,隨著GDPR的生效,企業在保護數據時必須格外小心。傳統匿名通常不是真正的匿名,最終個人身份是可以識別的。對數據添加額外級別匿名化的一種方法是引入合成數據。

[[280014]]

自歐盟范圍內的數據監管規定GDPR于2018年5月生效以來,許多在歐盟有業務的企業可能會對其侵權處罰感到擔憂,這可導致高達全球年營業額4%的罰款。

上個月,英國航空公司(British Airways)和萬豪國際(Marriott International)分別被處以令人咋舌的罰款(分別為1.83億英鎊和1億英鎊),想必各大企業應該都知道數據泄露意味著什么。對于銀行和金融機構等處理大量個人數據的大型企業來說,這尤其令人生畏。

我們都知道“數據是新的石油”這個說法,現代企業需要利用客戶數據來更好地了解客戶,同時訓練人工智能和機器學習算法。但現在,為了避免數據泄露,許多企業都將自己的數據嚴格控制,并對誰能在何時獲取這些數據制定了嚴格的程序。盡管這是數據隱私的一個積極趨勢,但它仍然限制了組織的數據靈活性和創新能力。

傳統匿名化的問題

聰明一點的企業現在正在尋找新的隱私增強技術,以便在數據效用和安全性之間取得平衡,有很多企業現在在“匿名”數據集上運行數據密集型流程(例如測試和數據分析)。

匿名化技術多種多樣,但最常用的方法之一是一般化,即將數據點的特殊性(如客戶的完整家庭地址)更改為更廣泛的數據點(如客戶的地區或城市)。通過犧牲數據集中一定程度的實用功能,確保數據集中的個人是匿名的、不可識別的。

匿名化變得如此流行的原因之一是,GDPR并不適用于匿名化的個人數據。但更令人擔憂的是,最近的研究表明,目前使用的大量匿名化在掩蓋一個人的身份方面效果很差。在絕大多數情況下,機器學習模型可以重新識別個人。

所以,實際上你并不需要個人的詳細信息來識別他們。因此,傳統的匿名化技術根本達不到要求。

復雜的合成數據

在綜合數據集中,每個數據點都屬于完全理論化的個體,有自己的名字、年齡、地址、銀行賬號、稅務記錄、醫療記錄,以及數據分析所需的任何其他細節。從歷史上看,這些數據的主要問題是很難生成足夠高質量的合成數據,以滿足高級數據科學的需要。

然而這些情況都會隨著人工智能和機器學習的發展而改變。通過在“真實”數據上訓練算法,我們現在可以生成保留原始數據所有底層統計信息的合成數據集,但個人或可識別信息為零。

一個簡單的方法是通過Nvidia生成對抗網絡(GANs)的方法,這是This Person Does Not Exist網站背后所用的技術。該網站利用真實的名人面孔數據集來生成不存在的人的超現實圖像。本質上,這是合成數據,每個人都有許多可以分析的屬性(例如眼睛的顏色、頭發的顏色、膚色),但是這些數據不能被破壞,因為它們不屬于真實的人。

如果將這項技術應用于客戶數據,您就可擁有可以在整個數據科學團隊中共享的數據,并用于各種建模,不需要過多的管理,也沒有隱私風險。同時,您的“真實”客戶數據可以存儲在一個安全的服務器上,很少有人需要訪問它。

寫在最后

隨著越來越多的企業希望采用綜合數據策略,毫無疑問,所有行業都將產生連鎖反應。 配備有必要的工具才能釋放其數據潛力,組織將可以利用他們的客戶數據,同時避免風險和承擔責任。

有了數據科學和先進的機器學習以及各種各樣的新技術,數據經濟即將被重塑,數據創新的新時代即將到來。

社交媒體的出現給人工智能領域帶來了巨大的飛躍,但很少有人關注數據的安全。現在,有了合成數據,我們可以沿著數據科學的道路繼續前進。但這一次,在堅持規則的同時,也需要更謹慎地謹慎對待數據。

責任編輯:未麗燕 來源: IT168
相關推薦

2017-07-20 07:30:16

大數據數據互聯網

2020-04-24 16:01:26

物聯網數據IOT

2020-03-16 10:56:06

大數據IT安全

2022-06-20 11:28:20

人工智能數據生成器

2022-12-12 08:13:27

Redis數據傾斜

2012-07-26 10:21:24

數據中心耗電

2022-08-11 08:00:00

機器學習合成數據深度學習

2013-08-01 10:05:54

大數據信息安全

2018-08-20 19:24:40

數據科學數據清理數據分析

2024-01-16 14:23:32

大數據人工智能AI

2023-02-23 07:46:48

學習模型數據倉庫

2016-12-13 11:34:10

2017-03-28 09:40:23

機器學習數據不平衡

2021-09-03 13:36:40

冷存儲數據ZB數據

2010-10-27 15:40:14

oracle分頁查詢

2012-09-05 11:09:15

SELinux操作系統

2023-09-11 07:25:52

2010-04-29 17:46:31

Oracle死鎖

2022-08-23 14:56:04

合成數據數據

2021-12-07 11:14:03

人工智能行為科學疫苗
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 干干天天 | 色婷婷综合久久久中字幕精品久久 | 一级黄色片在线免费观看 | 在线免费观看成年人视频 | 国产一区精品在线 | 精品久久久久久久久久久久 | 7777奇米影视| 欧美视频成人 | 日一区二区 | 国产在线一区二区三区 | 国产专区免费 | 欧美偷偷| 一级欧美一级日韩片 | 91中文在线观看 | 黑人巨大精品欧美一区二区一视频 | 国产精品99999 | 雨宫琴音一区二区在线 | 亚洲欧美在线观看 | 亚洲a在线视频 | 亚洲色图插插插 | 日韩精品在线视频 | 噜久寡妇噜噜久久寡妇 | 一区二区三区亚洲精品国 | 亚洲国产一区二区三区在线观看 | 国产精品地址 | 中文字幕在线观看精品 | 1区2区3区视频 | 成人在线免费av | 亚洲精品久久嫩草网站秘色 | 激情的网站 | 精品一区二区三区在线视频 | 免费性视频 | 日韩羞羞 | 久久伦理电影 | 亚洲国产中文字幕 | 欧美国产日韩一区二区三区 | 香蕉久久a毛片 | 91免费版在线观看 | 成人av片在线观看 | 一级毛片观看 | 国产在线播 |