成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

合理建立Hadoop數據庫的7個步驟

大數據 Hadoop
數據湖的概念起源于大數據的出現——且數據已成為企業的核心資產,Hadoop則是作為存儲和管理數據的平臺而出現。但是,盲目地投入Hadoop數據湖建設并不一定會使您的企業進入大數據時代——至少不是以一種成功的方式。

數據湖的概念起源于大數據的出現——且數據已成為企業的核心資產,Hadoop則是作為存儲和管理數據的平臺而出現。但是,盲目地投入Hadoop數據湖建設并不一定會使您的企業進入大數據時代——至少不是以一種成功的方式。

在將各種形狀和大小的數據資產以非統一方式匯入Hadoop環境或另一個大數據存儲庫的情況下,尤其如此。這種無序的方法會帶來一些挑戰和問題,這可能會成為使用數據湖來支持大數據分析應用程序的一大阻礙。

例如,您可能無法記錄哪些數據對象存儲在數據湖中,或紀錄其來源和出處。這使得數據科學家和其他分析人員很難找到分布在Hadoop集群中的相關數據,也難以使數據管理者識別誰可以訪問特定數據集,并確定其訪問權限級別。

如果您沒有一個良好的管理流程,組織數據并將相似的數據對象“桶裝”在一起以幫助簡化訪問和分析也將是一個挑戰。

這些問題都與數據湖或底層環境的物理架構無關,無論是Hadoop分布式文件系統還是像Amazon Simple Storage Service這樣的云對象存儲——或這些技術的組合,每種技術包含不同的類型數據。相反,成功實施數據湖的最大障礙來自對數據管理的規劃和監督不足。

 

合理建立Hadoop數據庫的7個步驟

處理Hadoop數據:做需要做的事

好的一點是,這些挑戰很容易克服。以下是解決和避免這些問題的七個步驟:

1、創建數據分類方法。在數據湖中對數據對象進行組織取決于其分類方式。在分類中需要確定數據的關鍵維度,例如數據類型、內容、使用方案、可能的用戶組和數據敏感性。后者涉及保護個人和公司數據,例如保護有關客戶的個人身份信息,或者保護知識產權。

2、設計適當的數據架構。應用定義好的分類方法來指導如何在Hadoop環境中組織數據。最終的計劃應包括諸如用于數據存儲的文件層次結構、文件和文件夾命名約定、用于不同數據集的訪問方法和控件、以及用于指導數據分發的機制之類的內容。

3、使用數據分析工具。在許多情況下,可以通過分析數據的內容,來部分地緩解對進入數據湖的所有數據了解不足的問題。數據概要分析工具可以通過收集有關數據對象中內容的信息來提供幫助,從而提供一些如何對其進行分類的見解。作為數據湖實施方案的一部分,對數據進行分析還有助于確定應評估的數據質量問題,以找出可能的修復方法,確保數據科學家和其他分析人員正在使用的信息是準確的。

4、標準化數據訪問過程。有效使用存儲在Hadoop數據湖中的數據集所面臨的困難,通常源于不同分析團隊使用多種數據訪問方法,而且其中許多未記錄。因此,建立一個通用而直接的API可以簡化數據訪問,并最終允許更多的用戶利用數據。

 

[[282753]]

5、開發可搜索的數據目錄。有效數據訪問和使用面臨的一個更隱蔽的障礙是,除了有關數據沿襲、質量和流通的信息外,潛在用戶不知道數據湖中的內容以及Hadoop環境中不同數據集的位置。協作數據目錄允許將有關每個數據資產的前面這些以及其他詳細信息記錄在案。例如,它抓取結構和語義元數據、出處和親屬關系記錄、訪問權限信息等等。數據目錄還為用戶組提供了一個論壇,以共享有關使用數據的經驗,問題和建議。

6、實施足夠的數據保護。除了IT安全性的常規考慮(例如網絡邊界防御和基于角色的訪問控制)之外,還需要利用其他方法來防止暴露數據湖中包含的敏感信息。這包括數據加密和數據屏蔽之類的機制,以及自動監視,以生成有關未經授權的數據訪問或傳輸的警報。

7、在內部提高數據意識。最后,請確保您的數據湖用戶意識到有必要主動管理其包含的數據資產。教會他們如何使用數據目錄查找可用數據集,以及如何配置分析應用程序以訪問他們所需的數據。同時,給他們留下深刻印象的是正確使用數據和增強數據質量的重要性。

為了實現使數據湖可訪問和可用的最終目標,在將數據遷移到Hadoop環境或基于云的大數據架構之前,制定一個精心設計的數據處理計劃至關重要。采取本文中概述的步驟將有助于簡化數據湖的實施過程。更重要的是,規劃、組織和治理的正確組合將有助于最大程度地提高組織在數據湖中的投資,并降低部署失敗的風險。

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2010-04-12 13:15:33

Oracle數據庫

2010-08-26 17:11:50

DB2database Pa

2011-05-19 13:49:09

2020-08-04 13:00:32

物聯網數據庫

2012-08-15 10:20:53

云計算大數據IT

2010-04-29 13:05:50

Oracle數據庫

2022-10-12 13:33:25

PostgreSQL數據庫

2010-04-06 11:19:28

Oracle數據庫

2017-11-08 09:03:55

MongoDB數據庫步驟

2010-07-28 14:39:18

DB2數據庫

2021-03-28 17:14:38

數據庫APP技術

2020-07-07 14:03:25

物聯網數據庫IOT

2018-08-10 07:50:45

數據庫數據庫設計實踐步驟

2010-05-13 13:49:09

MySQL數據庫

2011-05-26 15:03:47

catalog數據庫

2009-08-25 15:22:18

C#連接SQL數據庫

2010-06-04 10:05:55

MySQL數據庫還原

2010-07-28 09:59:18

DB2數據庫表

2020-03-10 09:54:20

零信任網絡安全網絡攻擊

2010-09-27 09:40:27

DHCP服務器數據庫移
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久久久久久福利观看 | 亚洲国产网| 亚州精品天堂中文字幕 | 在线视频中文字幕 | 日韩色视频 | 国产成人精品免费视频大全最热 | 亚洲一区二区三区免费在线 | 狠狠婷婷综合久久久久久妖精 | 欧美日韩专区 | 久久99精品国产 | 天天操天天干天天曰 | 手机在线一区二区三区 | 午夜在线影院 | 91精品国产一区二区三区香蕉 | 成人精品在线观看 | 欧美一级片在线播放 | 亚洲视频免费观看 | 久久久资源 | 日韩精品视频一区二区三区 | 日韩有码一区 | aⅴ色国产 欧美 | 最新中文字幕在线 | 国产97久久 | 欧美亚洲一区二区三区 | 亚洲精品视频免费观看 | 91中文字幕在线 | 亚洲精品久久久一区二区三区 | 欧美精品区 | 99综合| 国产精品国产三级国产aⅴ原创 | 亚洲精品国产第一综合99久久 | 日日摸夜夜添夜夜添精品视频 | 日韩一区和二区 | 亚洲三级在线观看 | 日韩av在线不卡 | 欧美性久久久 | 久在线观看 | 午夜久久久 | 99re视频在线观看 | 国产a区 | 久久精品久久精品久久精品 |