成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

存算分離是數據架構必然趨勢?

大數據 數字化轉型
存算分離架構是一種新的數據架構的設計范式,自上而下分為數據分析層、計算層和存儲層,其中計算層和存儲層解耦合,都是獨立的分布式服務。

圖片

什么是存算分離?

存算分離架構是一種新的數據架構的設計范式,自上而下分為數據分析層、計算層和存儲層,其中計算層和存儲層解耦合,都是獨立的分布式服務。其設計的目標是要解決三個需求:數據可以靈活開放給不同業務做數據分析、計算和存儲獨立擴展以及計算與存儲的資源隔離,同時也提供與存算一體架構等同的存算性能。

隨著硬件技術的快速進步,尤其是網絡和存儲設備的性能迅速提升,以及云計算廠商推動軟硬件協同加速的云存儲服務,越來越多的企業開始基于云存儲來構建數據存儲服務,或數據湖,因此就需要單獨再建設一個獨立的計算層來提供數據分析服務,這也就是存算分離架構(Disaggregated Storage and Compute Architecture)。

最近幾年,存算分離架構不僅在公有云上廣泛落地,在私有化場景下,也逐漸成為熱點。但是需要特別強調的是,存算分離架構并不等同于采用兼容S3接口的對象存儲來構建數據湖,也不是采用容器化來實現資源隔離或者彈性伸縮,更好的滿足業務需求是存算架構升級的一個根本原因。

圖片

想要了解企業數據架構向存算分離演進的必然性,首先要了解企業每一次數據架構變遷的背景和理由。

回顧歷史,我們會發現,數據架構變遷往往是因為當時技術暴露種種缺點,與企業新的發展需求不匹配。

這些變遷,最早可以追溯到上世紀90年代——

20世紀90年代,一些企業開始部署開源數據庫以支持 Web 應用程序,因為免費,所以在當時大受歡迎;

進入21世紀初期,開始面臨“數據多,很難在一臺物理機器上分析數據”的難題,企業開始采用大規模并行處理 (MPP) 驅動的新型數據庫系統。

發展到2010 年前后,因為新興業務的不斷產生,而MPP數據庫缺乏現代分析和數據科學所需的靈活性,企業再次轉向另一種新技術:Hadoop,即采用節點本地存儲的設計,由此形成計算和存儲耦合(即存算一體)的架構。

同樣地,來到今天,隨著5G、IoT等技術不斷發展,數據量激增,存儲空間和計算能力與數據增長不匹配,存算耦合的缺點也逐漸暴露:

1. 資源利用率低

從節點本身承接的業務來看,日志留存類的服務,數據很少被調用分析,因此CPU利用率較低,造成計算資源浪費,而且當計算或存儲達到瓶頸,服務器的可靠性也會大大降低。從集群整體來看,由于存算一體煙囪式建設,資源完全獨立不能共享,導致多個Hadoop集群無法隨不同時段業務需求的波動而均衡負載(平均資源利用率在25%以下)。

2. 成本高

當存算按某一比例強制綁定在一起,就意味著無法彈性擴容,同時為保證可靠性,采用三副本模式,造成大集群下高昂的存儲成本。

3. 運維困難

隨著業務復雜度的增加和新業務上線的速度加快,對服務器資源配比的要求也會隨之增加,如果服務器款型繁雜,維護難度就會增大,同時導致機房空間占用多、能耗大。

基于上面的背景分析,存算分離進入大家的視野。

可以說,存算分離針對存算一體的弊端進行優化,為企業控制成本和提升數據運行的效率提供了新的思路,具體來說:

1. 提升資源利用率,節約成本

實現計算和存儲彈性擴展、按需分配,降低了系統部署和擴展成本,同時將CPU和磁盤充分調度起來,解決了資源利用不均衡的問題。

2. 簡化運維,提升可靠性

使用外置共享存儲方便備份恢復,提高SSD的使用壽命,從而提高數據庫解決方案整體的可靠性,同時解決運維能力不足造成的硬件冗余。

隨著企業數字化建設的深入和業務訴求的升級,如果僅僅滿足于存算分離1.0時代,還遠遠不夠。

為什么向存算分離的下一代演進是大勢所趨?

如前文所說,存算分離1.0時代的解決方案聚焦成本,解決海量數據激增下企業如何重新定義大數據建設架構的問題,但仍未解決數據鏈路長、數據孤島、數據搬遷難等問題。

為了應對大數據時代下融合+實時分析數據的需求,企業IT架構向下一代存算分離演進勢在必行。

當傳輸協議和帶寬能力已不再是IO瓶頸,下一代大數據存儲應該向湖倉一體、一湖多云演進,更多以數據為中心,聚焦數據用得好的問題,以數據驅動融合分析、統一存儲,進一步驅動數據價值實時變現。

那么,以數據為中心的下一代存算分離,與1.0時代有什么不同?

首先通過實現計算和存儲資源的單獨擴容,然后將原本分散的數據實現集中存儲,打造統一的數據湖(Data lakehouse)。

同時,實現一湖多云對接。新一代數據庫,尤其是分布式數據庫,普遍采用云計算部署方式。下一代存算分離可以將數據存儲保留在本地,將機器學習等計算資源部署在公有云。這樣既能保證數據的安全性,又能實現計算的敏捷。

存算分離和存算一體化

相信早期的大數據集群的建設,都是采用存算一體化的形式進行的,購買幾臺即包含計算資源又帶一定存儲的機型來搭建整個大數據集群,如下圖:

圖片

存算一體化的集群中每個節點都具備相同的硬件配置,我們早期內部典型的配置基本上是:48核,256GB內存,12塊8T SATA盤,整體提供約48個CU(1CU包含1核,4GB內存)和96TB的存儲。

隨著業務的發展,我們發現,類似上述存算一體化的架構,在發展到一定階段的時候,整體集群中的資源需求會打破原來存儲計算之間的比例平衡,造成某一類資源的利用率一直無法提升。比如:內部某業務在兩年的時間內數據存儲量上漲到原來的4倍,而計算資源只上漲到原來的2倍,數據存儲量需求明顯比計算資源增長快,這時,如果繼續采用存算一體化的機型就意味著我要滿足存儲資源增長的同時,計算資源也會增長4倍,而實際的需求只要2倍,計算資源存在過剩的情況。

除了業務外,技術上的不斷革新帶來計算能力的提升,也會導致原先的存算一體化資源配置出現比例失調的現象。就拿大數據領域離線計算來說,從最初的Hive發展到Spark,而Spark從Spark1.x到當前的Spark3.x,相比于最早初的框架的能力,整體性能上有數量級的提升。

綜上,業務和技術的不斷發展,會造成原先存算一體化體系下存儲和計算的比例不斷發生變化,我們很難找到一種合適的機型來滿足不斷變化的需求。因此,我們在后續的采購過程中,進行了部分存算分離采購的調整:計算資源和存儲資源進行單獨的方式采購,并且存儲和計算都分別采用了更高密度的機型,從而把線上集群調整到一種合適的存算比例。

圖片

存算分離改造帶來的另外一大好處是把原先大數據計算過程中的離散I/O(shuffle數據)和順序I/O(數據塊)進行了很好的拆分,解決了計算過程中的I/O瓶頸,從而進一步提升了CPU的利用率。

存算分離和多層存儲

基于業務和技術的發展,對集群進行存算分離化改造能夠提升整體的計算資源利用率,在此基礎之上,根據業務自身發展的特性,還可以對業務的存儲做多層存儲拆分,進一步降低數據存儲的成本。

一般來說,業務的數據量是一直不斷在增長的,而應用使用的數據,都具有一定的時效性,更多的會集中在最近一兩個月甚至最近一兩周的數據,大量歷史數據更多的是在某些特殊的場景下會被利用到,比如:幾個月前的用戶行為數據。大量的存儲空間被這種重要但已經“過期”的數據所占據。在大部分的存儲系統中,經常被訪問的數據(熱數據)一般只占了15% ~ 25%,而不經常被訪問的數據(冷數據)卻占了75% ~ 85%。由于冷數據不活躍的特點,如果對冷數據的存儲進行一定的改造,將會取得較為不錯的成本收益。

圖片

上圖中,我們對原本存在IDC1中的存儲集群做了一定的拆分,把原本一個集群拆分成兩個集群,分別稱之為:熱集群和冷集群,熱集群的搭建與原先一致,而冷集群在搭建的時候,我們采用了EC(糾刪碼)的方式進行了改造,使得大量的冷數據在保證原來的高可用性的同時,存儲成本降至原來的50%,在業務具有較大規模冷數據的情況下,該種方式也可以為業務減少大量數據存儲成本。

存算分離和計算混部

存儲上可以根據數據冷熱做到多層存儲,計算層也可以通過一定的混部措施來提升業務整體計算的利用率。按照業務的特性,一般在線的業務高峰期每天的10:00-24:00,而離線計算的高峰期在24:00-8:00,從時間分布來看,在線業務與離線業務存在較好的互補特性。因此,如果能夠把部分離線的任務在在線業務的低峰期,能跑在在線業務的服務器上,做到在線離線業務混合部署,也是可以節省離線計算服務器。

圖片

2021年,杭研大數據聯合云計算、傳媒數據團隊在傳媒大數據場景下進行了在線/離線計算混合部署試點,試著把業務的Spark任務調度到輕舟K8s上,使得大數據任務在業務在線業務低峰實現混部,從而減少整個BU大數據計算的節點數量。

圖片

云環境下的存算分離

大數據私有場景下的存算分離一般通過把存儲和計算拆開,分別采用更高密度的存儲/計算機型來節省整個成本,存儲依舊采用HDFS的方式來搭建集群。而在云環境下,本身提供了對象存儲服務(如:S3,OSS,OBS等),在搭建大數據平臺的時候,是否可以選用對象存儲來做大數據存儲的底層。答案當然是可以,而且大多數云上大數據方案都是這么做的,如:AWS的EMR、阿里云的MaxCompute、華為的MRS等等。杭研大數據團隊針對不同的客戶需求,也設計了云上部署方案,如下:

圖片

在上述整個云上部署方案中,我們采用了云平臺的云主機來搭建計算引擎,同時使用了各家云平臺的對象存儲來作為底層數據存儲。云上部署平臺相比于云下私有化部署的大數據平臺來說,最顯著的一個變化就是用對象存儲+Block Cache的方式替換了原來的HDFS存儲,之所以引入Block Cache主要有兩方面的因素考慮:Block Cache通過標準協議,能夠屏蔽底層不同對象存儲,使得整體對上層計算無感知 Block Cache兼具緩存功能,能夠盡量減少遠程對象存儲訪問延遲對計算任務的影響。

除了架構上有些許不同之外,采用云原生對象存儲作為大數據的存儲層,需要考慮性能上的影響,比如,對象存儲對于像remove之類的命令,整體性能會比較低下,特別是在對大目錄的remove上,而大數據計算場景下,會有較多的insert overwrite操作,會頻繁的去刪除老的數據后寫入新的數據。因此對于像remove類的接口,如果性能很差,會大幅度影響計算性能。

圖片

對不同的行業和企業來說,下一代存算分離方案可以真正把技術落到實處,發揮作用。

對金融企業來說,這可以提升數據共享便捷度,減少數據重復存儲和搬遷,縮短數據加工鏈路,大大提高了數據分析的效率。

對政務平臺來說,可以從推動政務管理大數據向城市運行大數據演進,讓平臺在辦理業務時可以在不同應用間共享數據,彈性調度不同資源,滿足不同時間段的需求。

對運營商來說,使用下一代存算分離解決方案可以降本增效,提高資源利用率,降低運營成本,實現全國算力網絡統一布局。

時代和技術,始終在進步。企業也一直向前發展,需求在不斷更新。為了擴大數據分析架構的規模、提高數據分析的靈活性和敏捷性,存算分離是目前降低數據分析成本的第一步,向下一代存算分離演進,則是更重要的一步。

責任編輯:龐桂玉 來源: 數字化助推器
相關推薦

2021-09-13 14:19:37

大數據數據技術

2014-07-14 14:04:34

三星衰退

2016-07-06 16:26:22

云計算

2016-11-25 17:51:48

華為ICT

2021-04-07 15:51:02

區塊鏈數字貨幣技術

2012-09-21 09:41:27

火車訂票網絡訂票訂票服務

2012-09-26 14:05:02

火車票開放云計算

2019-03-19 20:02:42

區塊鏈大數據數據分析

2009-11-19 14:56:57

無線路由器

2009-06-15 08:29:56

2009-04-14 17:16:02

2025-04-17 03:00:00

2022-09-02 07:39:15

存算存儲私有云

2015-10-20 10:51:22

無線傳感網絡無線網絡

2012-02-02 08:38:56

云計算

2021-08-21 15:45:51

區塊鏈隱私技術

2009-10-12 09:25:20

企業布線

2017-11-27 18:28:05

華為智慧城市物聯網

2022-10-25 18:02:31

大數據存算分離

2015-09-25 13:39:37

T客幫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色婷婷影院| av网址在线播放 | 91久久综合亚洲鲁鲁五月天 | www.精品国产 | 亚洲欧美日韩电影 | 久久伊人一区 | av黄色免费 | 亚洲国产精品人人爽夜夜爽 | 91天堂网 | 自拍视频网 | 国产成人高清成人av片在线看 | 久久最新| 亚洲欧美日韩精品久久亚洲区 | 欧美一区二区在线观看 | 久久久久久久久国产 | 国产精品1区2区 | 欧美日韩国产一区二区 | 国产精品美女久久久久久免费 | 日韩在线| 国产精品久久久久久久久久妇女 | 精品久久久久久红码专区 | 欧美精品久久久 | www.亚洲精品 | 日韩欧美三级 | 国产一级在线观看 | 一区二区免费视频 | www久久久 | 国产精品视频免费观看 | 亚洲网址在线观看 | 亚洲a视 | 羞羞视频在线观免费观看 | 国产成在线观看免费视频 | 欧美精品一区二区三区在线 | 亚洲一区久久 | 在线日韩av电影 | 天天看天天爽 | 国产免费av网 | 日韩免费视频一区二区 | 成人国产精品视频 | 国产精品久久久久久久久久久久冷 | 中文字幕在线观看 |