當前基于對象存儲的主流技術產品之架構比較分析
對象存儲的優勢
存儲局域網(SAN)和網絡附加存儲(NAS)是目前兩種主流傳統的網絡存儲架構,而對象存儲(Object-based Storage)是一種新的網絡存儲架構。1999年成立的全球網絡存儲工業協會(SNIA)的對象存儲設備工作組發布了ANSI的X3T10標準??傮w上來講,對象存儲綜合了NAS和SAN的優點,同時具有SAN的高速直接訪問和NAS的分布式數據共享等優勢,提供了具有高性能、高可靠性、跨平臺以及安全的數據共享的存儲體系結構。
隨著非結構化數據爆發式的增長,傳統的SAN和NAS存儲架構不能應對數據爆發帶來的問題?;谄浔馄交?、拓展性強的結構特點,對象存儲成為非結構化數據存儲的***解決方案。通過對象存儲替代傳統的SAN和NAS 存儲,極大提升了非結構化數據訪問和存儲的效率。對象存儲具有分布式存儲的所有優點,靈活的拓展性,元數據的管理;通過其版本管理的強大功能,對象存儲有效地規避了人為操作的邏輯錯誤。
在性能方面,SAN存儲在處理結構化數據有著不可代替的地位;小容量非結構化數據共享正是NAS存儲發揮作用的場景;對于海量非結構化數據,對象存儲的性能優勢不可比擬。此外,對象存儲成本較SAN和NAS有很大優勢,應對海量文件,采用對象存儲替代傳統集中式存儲能節省不小的存儲成本,避免了資源浪費。
目前,人們需求的數據越來越多,而其中絕大部分都是非結構化數據。在未來幾年,非結構化更會呈現指數型增長,對象存儲的需求和市場會越來越大,互聯網和傳統行業都離不開對象存儲的發展。
當前對象存儲主流技術和產品
目前,在對象存儲行業存在兩大陣營,分別為開源技術和商用產品。開源技術主要以Ceph為代表,Ceph是一種開源的分布式對象、塊和文件存儲平臺。商業產品中主要以IBM、EMC和HDS三家傳統存儲廠商為市場主流。
兩大陣營:開源和商業
開源技術主要依靠開源社區的貢獻,以Ceph為代表。Ceph 是一個開源的分布式存儲系統,包括對象存儲、塊設備、文件系統。它可靠性高、管理方便、伸縮性強,能夠輕松應對PB、EB級別數據。Ceph 存儲體系中,核心為 RADOS,它是一個高可用分布式對象存儲,該模塊負責對集群眾多 OSD 的運行,保證存儲系統的可用性,為應用提供 RESTful 類型的對象存儲接口,其接口方式支持 S3 和 Swift 兩種類型。
近些年,越來越多的企業嘗試使用Ceph存儲,并基于Ceph建立統一的對象存儲資源池,用來解決近幾年讓企業頭疼的CM內容管理平臺。企業采用Ceph搭建對象存儲框架,主要考慮到Ceph作為相對成熟的開源軟件,其技術成本相對低廉;Ceph在開源領域被廣大客戶接受和追求,用戶之間可以相互溝通技術細節和問題處理方法,擁有廣大客戶群體也是Ceph被越來越多企業使用的出發點之一。
商業陣營主要由成熟的存儲廠商研發產品。商業產品依靠其強大的研發團隊不斷根據客戶需求和使用反饋對產品進行更新和換代,商業陣營深入客戶,發掘客戶并能夠根據客戶的特點開發存儲產品。商業產品更符合客戶要求,操作簡便,易維護,商業團隊會為客戶的正常運行保駕護航。
從架構上來講,開源技術和商業產品均采用分布式架構,可靈活進行橫向擴展,滿足用戶對大數據量的需求。
以Ceph為代表的開源技術,核心為RADOS,RADOS的架構圖如下圖,由Monitor+OSD節點搭建而成。
商業產品通常采用訪問節點+計算節點+存儲節點的部署方式,更具扁平化的結構,不同節點各司其職,有機構成整個對象存儲的系統。開源對象存儲技術以純軟件方式部署,安裝軟件于客戶的服務器中,通過調試進行對外服務;商業產品既可單獨采購純軟件方式,更可以采購一體機方式,節省了自身部署的復雜度。
開源技術目前對跨站點部署支持有限,還不能***的進行跨站點部署;商業產品跨站點技術更為成熟,均可進行跨站點跨數據中心的部署,能夠為客戶提供容災方案,避免站點級單點故障,安全性更高。數據可靠性方面開源技術采用多副本技術,通常采用三副本,這樣的架構帶來了存儲成本的上升;商業產品采用糾刪碼技術,既能避免邏輯錯誤,也能節省存儲開銷成本。
運行維護方面,開源技術主要依靠客戶的運維能力,需要很強的應急處理能力,運維成本相對較高;商業產品由廠商高水平團隊對客戶負責,可以根據客戶的情況“因地制宜”,制定最合適的運維團隊,及時有效的處理應急情況,保障客戶的系統穩定運行。
商業陣營幾大產品
商業產品陣營中主要以IBM、EMC、HDS為代表,擁有豐富的存儲開發經驗以及完整的開發和維護團隊。
IBM的對象存儲為IBM Cloud Object Storage,簡稱COS,被IBM收購以前叫Clever Safe。架構方面采用管理節點+訪問節點+存儲節點的完全分布式架構,數據在訪問節點進行切片,平均分布在存儲節點的磁盤中,更細顆粒度的保護數據完整性;硬件方面可以采用IBM定制機,也可以采用客戶自身的經IBM認證的X86服務器,靈活高效,也可以對服務器進行利舊處理;COS容量擴展方面極其優秀,集群可擴展到EB級別,滿足客戶的未來發展需求;支持跨站點的部署方式;數據保護方面采用靈活多變的糾刪碼技術,客戶可根據自身的需求調整數據可靠和容量利用的***分配;支持數據加密、多版本管理以及防篡改的高級功能,有效保障數據的可靠性;協議方面除支持Swift和S3協議外,還支持IBM特有的simple object的接口協議;數據讀寫性能可達到數Gb/s的讀寫速度;Gartner和IDC排名連續多年***。
EMC的對象存儲為ECS,架構采用分布式云存儲平臺,通過軟件實現X86服務器系統的大規模拓展管理,***容量可達PB級別;支持跨站點的部署方式;提供兩種糾刪碼技術,12D+4P和10D+2P兩種方式,對應的容量開銷分為1.33和1.2;協議方面支持Swift和S3兩種方式;市場占有率位于***象限;
HDS的對象存儲為HCP,架構采用典型的分布式一體化方式,采用管理計算節點+存儲節點的部署方式;HCP硬件配置靈活多樣,整體存儲節點通常能擴展至400PB;HCP支持多站點部署的同時,可以實現站點間數據傳輸和容災備份;數據保護方面采用20D+6P的糾刪碼技術,能夠提供77%的容量利用率;具備多版本、重復對象刪除和壓縮功能;協議方面支持Swift和S3兩種方式;數據傳輸方面HCP提供萬兆網絡,可提供GB級別的處理能力;Gartner排名連續三年排名前三。
金融行業存儲規劃選型分析
倘若企業非結構化數據未來增長緩慢,目前的存儲結構滿足業務響應的需求,尚可以采用NAS存儲。在傳統的金融行業中,錄音錄像系統以及內容管理平臺系統的推廣帶來了海量非結構化數據飛速增長,傳統的NAS存儲自身為樹形結構,響應速度不能滿足業務發展,此時,對象存儲是企業的***選擇。
新興的互聯網金融行業根據其業務特點,更多采用開源技術,通過自身技術人員的運維能力維護開源產品的運行,降低運維成本。在傳統金融行業中,非結構化數據量巨大且繼續呈現增長趨勢,業務連續性需達到監管要求,企業普遍采用商業產品。傳統金融行業非結構化文件達到億級別,數據量普遍達到PB級別,有些企業未來會達到EB級別,采用商業產品才可以滿足企業需求;商業產品擁有完整的技術支撐,提升企業的業務連續性和數據可靠性。良好的UI操作界面也是商業產品被企業接受的另一優點。成熟的體系架構、靈活的容量拓展、糾刪技術的運用,是商業對象存儲未來占據更多市場的堅實基礎,非結構化數據性能問題隨著對象存儲的推廣找到了合適的解決辦法。
企業應根據業務特點進行合理的存儲使用規劃。傳統的數據庫型結構化數據采用SAN存儲,達到業務的快速響應;少量樹形結構的數據可采用NAS存儲,達到業務數據共享的目標;海量非機構化數據采用對象存儲,由于對象存儲使用S3或Swift訪問協議,傳統的業務系統需要調整業務訪問端口,企業可采用“兩步走”的步驟,對于新開發的業務系統,對非結構化數據的訪問直接采用對象存儲的方式,對于存量的業務系統逐漸調整訪問端口。
合理的存儲使用規劃一定會為企業帶來長久的收益,存儲性能得到了提升,業務響應時間得到了有效的提高,對企業的服務水平和口碑具有良好的推動作用。合理的存儲規劃為企業降低了存儲開銷成本,根據業務特點和需求使用合理的存儲,避免了SAN存儲的浪費,同時采用對象存儲對企業的科技創新開辟了嶄新的道路。
本文作者:張森,就職于北京農商銀行運維中心,主要負責存儲相關方面運維和項目建設,研究對象存儲以及存儲虛擬化整合先進技術和案例。