數據資產兩手抓 智能化和安全性缺一不可
隨著5G、物聯網、自動駕駛、人工智能等技術逐步落地到各行各業,人們面對的數據量也達到了前所未有的量級——世界上90%的數據是在過去兩年產生的,到2025年數據將成倍增長10倍,攀升至163ZB。工業、金融、醫療、娛樂、媒體等行業每天都在產生PB級的信息量,而ML/DL、VR/AR等新興技術的應用讓數據曲線呈現了指數級的增長趨勢,相對應的數據所在的環境也在向云、邊、端蔓延,如何讓數據更加敏捷、可視化,訪問速度更快,管理更便捷,從而提升企業數據運營能力,是最大化數據價值的關鍵。
基于大數據的個性化推薦已屢見不鮮,似乎只要數據維度和量級足夠豐富,AI對其的價值挖掘就會用之不竭。數據讓AI有了應用價值,如Facebook會利用AI來預測用戶的未來行為,作為廣告投放的依據,所參考的信息包括:位置、設備信息、圖片/視頻瀏覽記錄、WiFi連接狀態、好友關系、聊天內容等等。然而,要想找出背后的關聯性,就要對人與人、人與物、物與物之間數據“神經元”進行分析,但這并不容易,尤其是在人均管理的數據量呈現指數及增長的時候。
但與此同時,大數據在云環境的安全性正在遭受考驗。與傳統IT系統相比,用戶和服務商的身份發生了轉變,數據的所有方和托管者的角色相互獨立,這就引發了對于數據信息的新挑戰。數據在公有云網絡上具有高度虛擬化、智能化、規模化、可擴展的特性,而資源共享也為黑客提供了便捷渠道,讓數據成了APT的 “標靶”,可能在產生、傳輸、接收等任一流程發生泄漏。
由IBM Security資助、Ponemon Institute LLC獨立開展的一項調查顯示,盡管平均數據泄露成本下降了10%,單條成本下降了2.9%。不過數據泄露事件的平均規模(丟失或被盜的記錄條數)卻上升了1.8%。2016年,數據泄露平均總成本增加5.4%,而數據泄露事件的平均規模上升了3.2%,異常客戶流失率和單條成本均上升了2.9%。可見,數據安全性并沒有隨著技術的演進有顯著加強。
對于云服務商來說,既可以選擇RAID部署,也可以在多個存儲節點之間各寫入幾個對象副本,這樣當某個節點出現故障時,其他節點的數據能夠持續補充,或者利用數據副本快速恢復丟失的信息。同時,系統也可借助冗余備份來組成并聯模型提升可靠性。多數情況下,云端應用會通過共享密鑰、生物識別、對象去標識、加密算法、虛擬機掃描等方式保障數據安全。
對于傳統原始數據來說,各個業務應用所儲存的數據并不能做到完全互通,這就導致了數據孤島,數據源既有結構化,也有分析化的,還有流式的,把這些商用大數據匯聚起來就成了數據湖,同樣是存數據,這與以往的數據倉庫是不一樣的,二者的目標就不相同。例如,數據湖可囊括AI縣相關的數據,這里面就包括了結構化數據、非結構化數據、半結構化數據,而數據倉庫只能對結構化數據發揮作用。從調用來看,數據湖包括的信息通常可以被高頻訪問,為企業帶來新的運營方向,而數據倉庫的數據則是按需來調取。
Aberdeen的一項調查表明,實施數據湖的組織比同類公司在有機收入增長方面高出 9%。這些領導者能夠進行新類型的分析,例如通過日志文件、來自點擊流的數據、社交媒體以及存儲在數據湖中的互聯網連接設備等新來源的機器學習。這有助于他們通過吸引和留住客戶、提高生產力、主動維護設備以及做出明智的決策來更快地識別和應對業務增長機會。
站在傳統數據倉庫的角度,數據脫格和數據解耦是必備的動作,這不是在原有生產系統所進行的,而是發生在數據倉庫中,而在大數據時代這個動作就變成了數據湖,對元數據進行管理。對象存儲有了元數據管理,用戶可以擁有更大的數據湖。在完成數據脫格的時候,能夠把數據有效管理起來,為后續的數據質量治理、數據管理提升打好基礎。
事實上,從大型機時代的DB2到后來的關系型數據庫,再到數據倉庫、商業智能,最初就是以批處理、集中式的方式去解決結構化數據的處理需求,直到商業大數據的成熟使得數據分析有了更大的價值。不過在數據湖逐漸出現之后,傳統集中化的處理開始難以應付大規模數據,于是就有了以Hadoop為代表的分布式處理技術。
Google曾做過一項調查,數據科學家僅有少數時間在寫代碼,更多的時間放在了數據抽取、數據清洗、數據治理等“數據管道”的工作上。由此可見,一個多功能、智能化、高效易用的管道對于幫助數據科學家提升工作效率、挖掘數據價值有著關鍵作用。
實時性、智能化、高彈性,使得云上構建數據湖成為了很多用戶的選擇。ESG研究發現,39% 的調查對象認為云部署主要用于分析,41%認為用于數據倉庫,43%認為用于Spark。此時,數據湖的無縫傳輸和穩定性變得更加重要。以AWS為例,其要做的第一步就是將數據移動到云中。要知道,帶寬和傳輸速度的物理限制在不會造成重大中斷、高成本和長時間的前提下,限制了移動數據的能力。
然而在數據的傳輸過程中,SSL協議會被用來解決安全問題。通常,SSL協議層在TCP/IP層和應用層之間,可以使用不對稱加密技術實現會話雙方信息的傳遞,能夠保證完整性和私密性,以及識別對方的身份。例如,配置服務器的SSL不僅需要驗證用戶身份,還要求瀏覽器提供用戶證書。之后,客戶端會檢查服務器證書,如果檢查失敗,則不能建立SSL連接。如果成功,則繼續。
可以說,云計算時代的大數據面臨的威脅與日俱增,而如何給予用戶安全感是云服務商要思考的問題。一方面,要讓用戶掌握對數據的控制權,采取多級加密驗證機制,讓用戶能夠監測到文件創建以來的元數據,另一方面也要做好健全的安全賠付機制,這樣才會讓用戶放心地將數據遷移上云。