成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

混合存儲架構中的數據編排

大數據
Alluxio 不僅適用于傳統 Hadoop 環境,還可與現代大數據生態系統、云原生應用程序的存儲和計算資源無縫集成。在混合云、混合存儲架構中,Alluxio 作為數據聯邦橋梁,為自治數據系統之間提供數據共享的解決方案。

Alluxio 可以作為開源的數據編排系統的首選方案,旨在解決現代分布式場景下數據訪問效率低下的問題。在存算分離的架構下,Alluxio 通過把數據緩存在靠近計算的地方,減少數據移動和復制所帶來的開銷,加速數據計算。Alluxio 不僅適用于傳統 Hadoop 環境,還可與現代大數據生態系統、云原生應用程序的存儲和計算資源無縫集成。在混合云、混合存儲架構中,Alluxio 作為數據聯邦橋梁,為自治數據系統之間提供數據共享的解決方案。Alluxio的解決方案工程師車賽光本次分享的題目是《混合存儲架構中的數據編排》。

一、數據訪問的主要命題

圖片

數據訪問的問題貫穿整個計算機系統架構的演變歷程。這些問題在不同時代都存在。主要包括以下幾個命題:第一是如何提高數據的讀寫性能;第二是通過命名空間實現數據的便捷訪問;第三是如何解決數據接口的兼容問題;第四是如何管理存儲系統中的數據。當然,這些命題并不足以涵蓋數據訪問的所有方面,因為工程師還需要關注一系列其他相關的問題,例如安全、審計、監控等等。但這些其他問題并不是數據訪問所獨有的,所以我們重點關注的是前四個命題。

回看計算機系統的發展歷史,我們大致可以把它劃分為“單臺服務器“時代、”單一分布式系統“時代、”多系統、多數據中心“時代。

在單臺服務器時代,上述命題在操作系統中或者某些軟件內部得到了解決。首先為了提高數據的讀寫性能,操作系統使用不同層級的緩存加速 CPU 對數據的訪問速率。通過多級緩存可以讓數據更加貼近于 CPU,從而避免每次都做磁盤尋址的過程。其次,操作系統文件系統提供統一的命名空間,方便用戶或者應用程序去訪問數據。然后是接口轉換。像 Linux 的虛擬文件系統會提供不同存儲掛載的模式,無論是從用戶態還是內核態進行存儲都要通過虛擬文件系統掛載在 Linux 的存儲系統上,使不同的 NFS 或本地磁盤都能以一致的方式訪問數據。因此虛擬文件系統本身就提供了接口轉換。最后是數據管理,比如數據備份、文件系統的日志等功能。

之后,進入了以 Hadoop 為代表的單一分布式系統時代。在這個時期,上述命題在單一分布式系統內部被解決了。例如,MapReduce 會把任務根據數據本地性分發到合適的節點上執行以提高數據讀寫效率(數據本地性)。當單一 NameNode 的壓力過大時,人們把 HDFS 集群進行分區管理,并在上面添加 HDFS RBF 做數據文件訪問路由,可以通過 RBF 統一不同 HDFS 集群的命名空間以方便用戶訪問,同時還實現了集群層面的橫向擴展和擴容。在接口轉換方面,當用戶需要通過 POSIX 的方式去訪問數據時,特別是機器學習和應用程序需要訪問 HDFS 數據時,就需要對文件接口進行轉換。開源社區中有許多庫,如 hdfs-fuse,主要用于上述目的。此外,大家熟悉的用于數據管理的 distcp,在不同的集群之間遷移數據。

從 Hadoop 的出現到當下,計算集群越來越多,應用場景也越來越豐富。計算框架如 Spark、Presto 等層出不窮。這些新框架的性能更好、功能更多,應用場景也更加廣泛。同時,機器學習領域的工程實踐比以往任何時候都活躍,應用場景也變得更為廣泛,存儲方案也比原來更加豐富和成熟,比如很多企業都在思考如何把對象存儲用起來、用得更好;很多企業在同時使用多種類型的存儲系統。多數據中心、多云、混合云的架構越來越多地被采納。很多企業的架構已經邁入了“多系統、多數據中心時代”的時代。

不同的場景需要使用不同的計算框架。不同的計算框架能夠在不同的場景中為我們提供不同的備選方案。不同的存儲系統讓我們能夠在容量、性能、成本等方面找到適合自己的平衡點。多數據中心、多云、混合云的架構為我們進一步優化服務的可用性、可靠性、以及成本提供了可能。但是在面對更加豐富的架構設計的選擇的同時,我們也要重新檢視新架構下數據訪問的 4 個命題。比如,在使用對象存儲的過程中,如何提高對象存儲方案的效率、減少公有云上對象存儲訪問的成本;在混合云場景中,如何處理帶寬限制對數據網絡傳輸的影響并提高數據訪問的并發量;使用 HDFS 存放熱數據、用對象存儲存放冷數據的時候,如何使用統一的命名空間去統一訪問數據,在數據的熱度發生變化的時候,如何對數據進行管理。

Alluxio 的數據編排技術就是想要幫助用戶在多系統、多數據中心的架構中解決數據訪問的四個命題。因此,當企業在考慮多個數據中心、多個云服務、異構存儲的使用、數據訪問性能優化的時候,我們推薦工程師從上述命題入手去思考數據訪問的挑戰,然后看一下 Alluxio 是如何解決這些問題和挑戰的。

二、Alluxio 的最佳試用場景

在單數據中心或者單區域的場景中,Alluxio 可以幫助用戶解決一些痛點。例如,在單一 HDFS 集群的場景下,雖然 HDFS 的負載通常較為平穩,但在任務峰值時 NameNode 或 DataNode 可能會承受壓力。在這種情況下,我們可以使用 Alluxio 分流 HDFS 的負載。另外,若在數據中心中使用 Presto 且不存儲數據,則可以使用 Alluxio 的 SDK 作為 Presto 客戶端緩存,提高 Presto 查詢的性能,減少對象存儲的開銷。

在涉及到多個區域、多個數據中心以及計算框架和存儲集群比較復雜的情況下,用戶更應該考慮使用 Alluxio  解決新的技術挑戰。

圖左顯示四個區域,每個區域表示一個獨立的數據中心或云域,它們彼此交互,使用不同的存儲方式,如對象存儲和 HDFS。除了計算框架復雜之外,存儲也是異構的混合模式。在這種多系統、多數據中心場景中,用戶痛點主要包括數據讀寫性能不高或者不穩定、缺乏統一命名空間、缺乏可靠的協議轉換方案等問題。Alluxio 不僅可以解決這些問題,還具有自動數據管理特性,幫助用戶跨區域、跨存儲管理數據。

圖片

三、Alluxio 的數據緩存,命名空間,接口轉換

Alluxio 是如何在上面的場景中解決用戶的痛點的?這里,我們先介紹三個 Alluxio  核心功能。

圖片

1、數據緩存

第一個是 Alluxio 提供的數據緩存功能。如上面第一張圖,本地數據中心和公有云之間的數據交互和數據訪問需要通過網絡。數據可以選擇存儲在對象存儲或 HDFS 中,并在公有云上部署一些計算集群。在進行機器學習訓練、批處理或即席查詢時,數據訪問由于網絡限制而效率不高。因此,在公有云一側,可以部署 Alluxio 集群緩存數據。部署 Alluxio 集群后,整個數據流模式發生了變化:計算在訪問遠端存儲之前,會先訪問 Alluxio;如果 Alluxio 已經緩存了數據,則可以直接從本地集群中高效訪問數據,而無需通過網絡重復獲取數據;如果 Alluxio 尚未緩存這些數據,它將從遠端存儲拉取并緩存數據,然后將其交給計算集群處理。當 Alluxio 緩存數據時,不僅可以緩存文件的內容,還可以緩存文件的元數據信息。元數據緩存非常重要,因為它可以有效降低對象存儲的訪問成本、分散 HDFS NameNode 的負載。

Alluxio 不僅提供集群緩存,還可以提供客戶端 SDK,幫助計算組件進行本地緩存??蛻舳司彺姹燃壕彺娓咏蛻舳擞嬎?,所以性能更高。

因此,Alluxio 提供了兩種不同級別的緩存,用戶可以在不同場景中選擇其一或者同時使用兩種緩存。在使用時:

  • Alluxio 可以將數據緩存在 MEM、SSD 或 HDD 中,讓用戶根據實際情況選擇緩存資源。
  • Alluxio 支持緩存中數據的生命周期管理,對數據的緩存時間進行 TTL 設置
  • Alluxio 支持不同的緩存讀寫類型(穿透寫、異步寫、UFS 直接寫等;緩存讀、UFS 直接讀);用戶可以根據數據類型選擇緩存策略。
  • 整個 Alluxio 資源由用戶配置,用戶可以根據需要分配機器、節點和資源,即完全管理緩存資源。在使用公有云的對象存儲時,對象存儲會對讀操作的吞吐量和并發量限流;但是如果使用 Alluxio 作為對象存儲的緩存,則不存在限流問題。
  • Alluxio 緩存對存儲的訪問完全透明,不需要用戶專門適配 Alluxio,使用非常方便。

2、命名空間

第二個功能是統一命名空間。用戶可以將不同的異構存儲掛載到 Alluxio 的命名空間中,并通過統一命名空間訪問這些存儲。比如,用戶同時使用了 HDFS 和 S3,那么他可以把 HDFS 和 S3 掛載到 Alluxio 的命名空間上,用戶可以使用統一的視圖訪問數據,而不需要在不同數據源之間進行切換。

此外,Alluxio 還提供了一種有趣的掛載方式,即可以將不同的存儲系統掛載到Alluxio 命名空間的同一目錄下。這種掛載方式稱為 Union Mount,它打破了傳統的“掛載”語義的定義,允許用戶通過一個掛載點訪問多個數據源。這種抽象命名空間可以將具體的物理命名空間和應用層解耦,從而降低對業務的侵入性。本文后面的部分會討論一個使用 Union Mount 的場景。

3、接口轉換

第三個功能是接口轉換??梢钥吹?,Alluxio 所處的軟件層次位于計算和存儲之間,就像操作系統中的數據總線一樣,并向上層提供不同的數據訪問接口。換句話說,在該層次中,Alluxio 將計算和存儲進行了訪問接口的解耦,無論下面的存儲系統接口如何變化,上面的計算系統都可以使用適合自己的接口去訪問底層的數據,整個訪問過程是順暢和無感知的。這有什么用處呢?比如,以前的數據都保存在 HDFS 中,但是用戶想要對數據進行備份或者進行熱、冷分離。如果引入對象存儲,用戶則需要對 S3 等協議進行適配;如果上層計算通過 Alluxio 去訪問,Alluxio 側為計算屏蔽了存儲接口的差異,將底層的 HDFS 和 S3 接口都統一成上面的 HDFS 接口進行數據訪問,也就是說,計算側不需要進行任何改造,仍然可以通過 HDFS 接口訪問 S3 上的數據。

抽象存儲系統接口,能夠幫助用戶方便地整合機器學習和大數據技術棧。例如,許多訓練任務的數據都存儲在 HDFS 或對象存儲中,然而 PyTorch 和 TensorFlow 更傾向使用 POSIX 接口去訪問數據,這種數據訪問接口的差異可以通過 Alluxio 來屏蔽。

接口轉換配合統一命名空間的使用,可以幫助用戶建立統一的數據訪問視圖。例如,一個集團公司下屬多個子公司,且子公司的數據存放在異構存儲系統中。集團公司可以搭建一個 Alluxio 服務,把子公司的存儲系統都掛載到集團公司的 Alluxio 服務上,然后使用 Alluxio 的 RESTful 接口為用戶提供文件/對象的 Web 視圖。

四、基于 Alluxio 的數據管理

以上是 Alluxio 的幾個核心功能,此外,Alluxio 還提供數據管理功能。

圖片

我們看這樣一個場景:由于 HDFS 集群資源非常有限,容量已經達到了瓶頸,所以用戶需要將熱數據放在 HDFS 中,將冷數據放在對象存儲中,以實現數據的冷熱分層。用戶需要對不同的數據或者分區設置不一樣的策略。例如,對于超過 6 個月的文件,Alluxio 會將其放在對象存儲中,因為這些數據已經變成冷數據;對于小于 6個月的文件,Alluxio 會將其放在 HDFS 中。其中,6 個月是用戶自定義的時間(用戶可以定義其他時間閾值作為冷熱數據的分界線),有的文件需要根據文件創建時間決定其冷熱狀態,有的需要根據文件的名稱來判斷。

一種辦法是用戶編寫和維護腳本或使用數據集成軟件進行數據遷移。另一種方法是使用 Alluxio。

Alluxio 提供了 Alluxio PDDM 執行引擎的功能來幫助用戶管理數據。用戶根據場景和需求,在執行引擎上定義一些數據管理策略,比如哪些文件需要遷移、遷移的目的地是哪里、原始文件是否刪除等。

策略定義好以后,執行引擎就根據策略去做相應的工作了。例如定期掃描目錄樹、拷貝出錯的重試、老文件的刪除等,整個數據管理的工作都被執行引擎自動化地完成了。

結合前面提到的 union mount 掛載:因為數據從 HDFS 挪到了對象存儲里邊,物理位置發生了變化,但是由于兩個存儲的數據的掛載點都掛載在 Alluxio 的同一個目錄下面,因此用戶應用程序如果通過 Alluxio 目錄去訪問數據的話,并不會感知到物理位置的變化,這樣就完全避免了由于數據在混合存儲下物理位置變化而帶來的改造需求。Alluxio 數據管理,將 PDDM 執行引擎和 union mount 這兩個功能配合使用,達到數據管理的目的,并且對應用是低侵入的。

五、基于 Alluxio 的數據聯邦

圖片

最后談談基于 Alluxio 的數據聯邦場景。許多企業,尤其是正處于數字化和 IT 化轉型過程中的大型企業,會涉及使用多個系統或者多家云服務的情況。例如,有些集團的區域公司在發電站周圍建立了較小規模的數據中心進行數據收集,每個區域公司有自己的數據中心,每個中心有自己的技術棧;再有,一些大型集團的生產部門和銷售部門分布在不同區域,各部門相對獨立且使用不同的云服務。這種類型的數字化過程或者IT 建設方式的優點在于高敏捷度:區域公司或者部門只需快速解決自己的痛點,并選擇合適的解決方案和服務即可。但同時,容易導致數據孤島的產生。

子公司和各部門自己的數據如果能夠安全地、充分地被共享和使用,數據的價值則能夠趨于最大化;反之,如果數據的共享和使用被數據孤島而影響,企業所擁有的數據資產的價值會大打折扣。業界有很多解決方案來提升數據價值,如近幾年比較流行的數據網格(data mesh),是一種“從上到下”的解決方案。除此之外,還有其他的方案。

這里,我們討論一種使用 Alluxio 的解決方案。

假設,集團想要打通子公司之間或者部門之間的數據通路。

首先,集團公司建立集中式的數據管理平臺。平臺包含操作界面和存儲系統。集團公司允許來自子公司的數據資產管理人員注冊數據資產,例如,注冊某子公司擁有哪些存儲系統、哪些目錄、哪些文件等;對于格式化數據,用戶在數據管理平臺中注冊自己的庫、表信息。

然后,數據管理平臺根據用戶提供的數據資產注冊信息,通過 Alluxio 和 Meta Store Proxy,把子公司的數據資產接入進來。具體說來,存儲系統(HDFS、對象存儲、NAS等)掛載到集團公司的 Alluxio 上,其他子公司通過 Alluxio 統一訪問這些存儲系統中的數據;結構化數據的元數據(庫、表)掛載到 Meta Store Proxy 上,其他子公司通過 Meta Store Proxy 統一訪問這些信息。

最后,用戶訪問數據時,如果訪問本部門或公司的數據,可按照原來的方式進行訪問。如果要實現共享數據或數據的聯邦查詢、分析或任務等,則通過集團公司的數據管理平臺訪問。訪問過程中,代理提供庫表信息,訪問具體文件時,則使用Alluxio。子公司在訪問共享數據時,由于通過數據管理平臺訪問,所以需要受到集團公司對數據訪問權限的控制。此外,由于所有數據在同一個平臺中注冊,數據的發現和使用、數據資產的管理變為集中化的方式。

以上就是基于 Alluxio 的數據聯邦場景下的解決方案。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2017-06-13 16:03:35

混合云容器編排引擎

2016-06-07 16:43:57

云計算混合云

2017-11-29 08:38:58

存儲陣列

2015-01-26 12:31:59

混合云云存儲

2020-02-17 09:15:12

混合云云存儲

2020-03-25 10:43:37

混合云存儲云計算

2023-07-31 13:49:11

2018-01-14 16:11:56

混合存儲陣列數據遷移

2018-07-18 08:45:09

Redis混合存儲數據識別

2015-09-15 16:01:40

混合IT私有云IT架構

2018-04-02 09:08:49

混合存儲陣列

2018-07-13 08:45:57

Ceph對象存儲混合云

2017-10-17 10:34:16

數據中心混合存儲

2018-04-23 15:14:02

混合云云存儲公有云

2020-10-26 07:05:02

大數據管道編排編排框架

2020-12-08 10:02:42

混合多云/數據保護/云

2017-08-03 17:30:51

IBM存儲IBM存儲

2020-11-16 10:27:38

云計算

2011-11-03 09:44:51

虛擬化混合存儲虛擬機

2017-03-13 19:46:08

閃存存儲SSD
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品一区二区二区 | 午夜免费福利片 | 中文在线一区 | 国产精品a久久久久 | 中文字幕免费视频 | 日韩成人在线视频 | 国产视频导航 | www.久久艹 | 中文字幕在线中文 | 蜜桃臀av一区二区三区 | 91亚洲国产成人久久精品网站 | 亚洲国产精品视频 | 亚洲精品视频在线看 | 国产在线观看一区二区三区 | 欧美一级网站 | 韩日一区二区 | 免费黄色录像视频 | 97精品超碰一区二区三区 | 激情国产| 日韩 欧美 综合 | 亚洲欧美网站 | 日本电影免费完整观看 | 精品欧美| 亚洲精品久久久一区二区三区 | 99精品欧美一区二区蜜桃免费 | 欧美精品在线看 | 国产成人精品久久二区二区91 | 欧美色综合天天久久综合精品 | 一区二区三区四区在线视频 | 久草视频在线播放 | 五月天婷婷狠狠 | a看片 | 亚洲一区二区免费电影 | 亚洲综合婷婷 | 在线亚洲人成电影网站色www | 一区二区三区日韩 | 亚洲成人一区 | 国产精品1区2区3区 国产在线观看一区 | 国产精品久久二区 | 欧美亚洲激情 | 福利网站在线观看 |