關(guān)于GDPR,數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師需要知道些什么
本文要點(diǎn)即將于2018年5月生效的GDPR將會(huì)改變企業(yè)收集和管理數(shù)據(jù)的方式。
- 違反條例可能遭到罰款,罰款***相當(dāng)于整個(gè)企業(yè)利潤的4%。
- GDPR主要圍繞數(shù)據(jù)的收集、數(shù)據(jù)的可見性和數(shù)據(jù)的使用限制。
- 新的工具、框架和數(shù)據(jù)管理方式需要通過最基本的“GDPR測試”,以免違反條例。
- GDPR為數(shù)據(jù)管理策略的現(xiàn)代化和數(shù)據(jù)科學(xué)應(yīng)用的強(qiáng)化帶來了契機(jī)。
歐盟***隱私條例的推出,給企業(yè)的數(shù)據(jù)管理帶來了更多的挑戰(zhàn)。新條例將會(huì)給所有使用數(shù)據(jù)的應(yīng)用程序帶來深遠(yuǎn)的影響。
歐盟的通用數(shù)據(jù)保護(hù)條例(General Data Protection Regulation,GDPR)將會(huì)在2018年5月25日生效。如果企業(yè)違反條例,***需要付出4%的利潤作為罰款。因此,GDPR可以說是世界上罰款最重的數(shù)據(jù)條例。
從理論上說,GDPR只對歐盟地區(qū)的“個(gè)人數(shù)據(jù)”有效,但實(shí)際上,任何能夠用于識(shí)別個(gè)人的數(shù)據(jù)都適用該條例。也就是說,任何歐盟地區(qū)的數(shù)據(jù)都在GDPR的管轄范圍之內(nèi),因?yàn)檠芯勘砻鳎灰獢?shù)據(jù)足夠多,到***都有可能關(guān)聯(lián)到與數(shù)據(jù)主體。舉個(gè)例子,最近有一組研究人員使用蜂窩位置數(shù)據(jù)(比如某一時(shí)間點(diǎn)某個(gè)信號塔覆蓋到的用戶數(shù))——理論上這些數(shù)據(jù)都是匿名的——定位到個(gè)人的位置軌跡,準(zhǔn)確率高達(dá)73%到91%。
那么,那些在企業(yè)中負(fù)責(zé)收集、組織和使用數(shù)據(jù)的數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師們應(yīng)該如何看待GDPR?他們應(yīng)該如何調(diào)整他們的數(shù)據(jù)策略?
關(guān)于GDPR,你需要知道些什么
從高層面來看,GDPR主要關(guān)注三個(gè)方面的問題:數(shù)據(jù)收集管理、數(shù)據(jù)可見性和數(shù)據(jù)使用限制。
收集管理涉及到如何管理數(shù)據(jù)和如何收集數(shù)據(jù)。GDPR要求在進(jìn)行數(shù)據(jù)收集時(shí),隱私是首要的考慮因素。例如,條例中有很多限制條件與數(shù)據(jù)主體的授權(quán)有關(guān),也就是說,企業(yè)在收集數(shù)據(jù)時(shí),需要讓數(shù)據(jù)主體知道,并獲得他們的同意。換言之,在企業(yè)收集用戶的數(shù)據(jù)時(shí),用戶需要知道企業(yè)為什么要收集數(shù)據(jù),這一點(diǎn)是重中之重。
數(shù)據(jù)可見性是指了解企業(yè)持有哪些數(shù)據(jù)以及將持有多長時(shí)間。現(xiàn)如今,大多數(shù)企業(yè)都意識(shí)到數(shù)據(jù)就是“寶藏”,他們竭盡所能地收集數(shù)據(jù)。但大部分企業(yè)對他們所持有的數(shù)據(jù)并不了解,或者不知道該把它們存在哪里,或者在保存好以后不知道數(shù)據(jù)的來源是哪里。
在Immuta,我們通常把這看成是合規(guī)和IT架構(gòu)問題,我們有數(shù)據(jù)孤島和不同的團(tuán)隊(duì),數(shù)據(jù)庫管理員負(fù)責(zé)管理各類數(shù)據(jù)。在GDPR出臺(tái)之后,這種方式就不符合規(guī)范了。如果有用戶要求刪除他們的數(shù)據(jù)(這個(gè)是經(jīng)常被“遺忘”的用戶權(quán)利),企業(yè)就要找到這些數(shù)據(jù),并刪除它們。GDPR中例舉了相關(guān)的例子。
***,也是最重要的一點(diǎn),數(shù)據(jù)使用限制指的是企業(yè)必須基于使用意圖來使用數(shù)據(jù)。例如,如果一個(gè)用戶只同意將數(shù)據(jù)用于“營銷”,那么企業(yè)就必須遵循這樣的限制。GDPR列出了六個(gè)合理的使用意圖,企業(yè)可以在GDPR允許的范圍內(nèi)制定自己的使用意圖。這個(gè)指南為企業(yè)提供了15個(gè)使用數(shù)據(jù)的建議。對于企業(yè)來說,遵循數(shù)據(jù)使用意圖是最為重要也是***的挑戰(zhàn)。
如果通過基本的GDPR測試我們先假設(shè)GDPR已經(jīng)生效,歐盟當(dāng)局開始強(qiáng)制執(zhí)行該條例。
實(shí)際上,在寫這篇文章的時(shí)候,GDPR還有很多模棱兩可的地方,在接下來的幾個(gè)月(甚至是幾年),條例制定者還會(huì)對其進(jìn)行調(diào)整。也就是說,在條例正式生效那天,條例制定者們并不會(huì)指望能夠達(dá)到100%的合規(guī)性。他們期待的是人們能夠以一種合理、嚴(yán)肅的態(tài)度和努力來遵守條例。
通過基本的“GDPR測試”意味著什么?
這意味著企業(yè)需要展示他們的合規(guī)性——了解收集的數(shù)據(jù),了解數(shù)據(jù)的使用意圖,并向條例制定者和數(shù)據(jù)主體證明自己能夠做到這些。
更具體地說,企業(yè)收集的數(shù)據(jù)至少需要加入一些元數(shù)據(jù),比如“意圖”和“收集時(shí)間”。這樣就可以更好地跟蹤數(shù)據(jù)的使用,并嚴(yán)格遵守?cái)?shù)據(jù)的保留時(shí)間。也就是說,在持有數(shù)據(jù)一段時(shí)間之后,需要?jiǎng)h除或隱匿這些數(shù)據(jù)。
如果企業(yè)能夠在這些方面展示他們的合規(guī)性,從數(shù)據(jù)收集、使用到刪除,他們對數(shù)據(jù)有充分的了解,知道該持有數(shù)據(jù)多長時(shí)間,知道數(shù)據(jù)的使用意圖,并且符合GDPR的每一項(xiàng)要求,那么他們就可以順利地通過基本的“GDPR測試”。
GDPR下的機(jī)遇
在聰明的企業(yè)看來,GDPR不只是一組新準(zhǔn)則而已。那些以數(shù)據(jù)為驅(qū)動(dòng)的敏捷企業(yè)把GDPR看成是一種機(jī)遇,他們會(huì)重新思考他們的整體框架,以便更好地收集和使用數(shù)據(jù)。
以亞馬遜和谷歌這樣的科技巨頭為例,他們的關(guān)鍵差異在于如何收集和使用數(shù)據(jù)。這些不是事后才來考慮的事情,而是需要進(jìn)行謹(jǐn)慎的前期規(guī)劃。擁有正確的數(shù)據(jù)才能讓他們在營銷、零售等方面無往不勝。
事實(shí)上,教科文獻(xiàn)早就證實(shí),好的監(jiān)管會(huì)帶來更好的產(chǎn)出,在數(shù)據(jù)管理方面也是如此。更好、更長遠(yuǎn)的數(shù)據(jù)洞見要求在數(shù)據(jù)的收集和銷毀方面進(jìn)行深思熟慮和謹(jǐn)慎的計(jì)劃。
GDPR讓數(shù)據(jù)科學(xué)家明白了他們能夠訪問和使用哪些數(shù)據(jù),這或許就是GDPR為我們帶來的主要機(jī)遇之一。我一直覺得“數(shù)據(jù)科學(xué)家”更像是“數(shù)據(jù)清道夫”——大多數(shù)數(shù)據(jù)科學(xué)家大部分時(shí)間都是在查找他們需要的數(shù)據(jù)上,然后訪問這些數(shù)據(jù),把它們轉(zhuǎn)換到恰當(dāng)?shù)臓顟B(tài),然后使用它們。
但這種狀況會(huì)導(dǎo)致大量的時(shí)間和資源的浪費(fèi)。數(shù)據(jù)科學(xué)家并不是被請來做數(shù)據(jù)清道夫的,也不是為企業(yè)的數(shù)據(jù)策略做一次性解決方案的。他們的職責(zé)應(yīng)該是從數(shù)據(jù)中挖掘洞見,這也是他們擅長的事情,這也就是為什么企業(yè)高薪聘請他們。
在組織中制定全盤的數(shù)據(jù)策略,并集中管理數(shù)據(jù),數(shù)據(jù)科學(xué)家們就可以脫身出來做他們擅長的事情,從而讓公司發(fā)展得更快,變得更高效和靈活。
GDPR實(shí)施之后會(huì)發(fā)生什么?
我們需要以全新的方式來看待數(shù)據(jù),隨著新規(guī)則的出現(xiàn),它會(huì)變得越來越重要。事實(shí)上,不管是土耳其、中國還是其他國家,數(shù)據(jù)變得越來越規(guī)范,對于以數(shù)據(jù)作為驅(qū)動(dòng)的企業(yè)來說,數(shù)據(jù)管理變得越來越重要,也是***的挑戰(zhàn)之一。
以下是幾點(diǎn)有關(guān)未來數(shù)據(jù)管理的洞見:
- 數(shù)據(jù)湖不復(fù)存在。通常在說到數(shù)據(jù)管理時(shí),企業(yè)的***直覺是將所有數(shù)據(jù)放到一個(gè)地方,以此來解決所有的問題。如果是出于處理數(shù)據(jù)的目的(比如Spark),這樣做是可以的。但說到數(shù)據(jù)監(jiān)管和數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)湖就會(huì)成為問題。隨著數(shù)據(jù)的不斷加入、數(shù)據(jù)存儲(chǔ)工具的不斷出現(xiàn)以及底層IT架構(gòu)的演進(jìn),數(shù)據(jù)湖會(huì)變成數(shù)據(jù)池塘,然后是數(shù)據(jù)沼澤。在未來,你可能需要通過集中存儲(chǔ)數(shù)據(jù)來解決數(shù)據(jù)管理問題。
- 多元化是你的好朋友。在大型組織中,以標(biāo)準(zhǔn)化的方式來存儲(chǔ)數(shù)據(jù)是幾乎不可能的,我建議要長遠(yuǎn)地考慮數(shù)據(jù)管理問題。你將會(huì)擁有多元化的數(shù)據(jù)存儲(chǔ)系統(tǒng)和數(shù)據(jù)工具——事實(shí)上,多元化是不可避免的。一旦你意識(shí)到標(biāo)準(zhǔn)化并非你的***,就要想想多元化,它才是數(shù)據(jù)管理策略的核心。
- 進(jìn)行審計(jì)。如果你不進(jìn)行審計(jì),就無法向條例制定者證明你的數(shù)據(jù)管理框架符合條例的要求。所以,要確保自己具有集中式的審計(jì)能力,創(chuàng)建審計(jì)報(bào)告是數(shù)據(jù)管理策略的一個(gè)關(guān)鍵組件。另外,在必要時(shí)需要對審計(jì)進(jìn)行測試。企業(yè)通常認(rèn)為他們?yōu)閷徲?jì)所收集的數(shù)據(jù)是正確的,但經(jīng)常會(huì)出現(xiàn)錯(cuò)誤,而一旦發(fā)現(xiàn)出問題就為時(shí)已晚。
關(guān)于GDPR之下的未來數(shù)據(jù)管理框架還有很多可以說的。對于企業(yè)來說,最為關(guān)鍵的是,數(shù)據(jù)管理不再只是數(shù)據(jù)策略中可有可無的一個(gè)組件。數(shù)據(jù)科學(xué)在企業(yè)中的重要性與日俱增,隨著數(shù)據(jù)條例的出臺(tái),企業(yè)需要越來越重視數(shù)據(jù)管理。