對PB級非結構化數(shù)據(jù)的要求
眾所周知,非結構化數(shù)據(jù)很難管理。但是,當組織的非結構化數(shù)據(jù)資產(chǎn)超過PB閾值時,控制數(shù)據(jù)集將帶來一系列全新的挑戰(zhàn)。
大多數(shù)傳統(tǒng)的網(wǎng)絡附加存儲(NAS)系統(tǒng)都難以管理100 TB的非結構化數(shù)據(jù)集,而管理多PB數(shù)據(jù)超出了他們的能力范圍。當前網(wǎng)絡附加存儲(NAS)系統(tǒng)的局限性導致許多IT專業(yè)人員認為唯一的答案將是對象存儲系統(tǒng)。問題在于,盡管對象存儲可以擴展以滿足容量需求,但在性能方面可能不足。
IT專業(yè)人員在試圖找到支持PB級非結構化數(shù)據(jù)集的存儲基礎設施時面臨的挑戰(zhàn)之一是,必須將需求作為一個整體來考慮,因為所有元素都需要協(xié)同工作。
采用全閃存存儲不切實際
不可否認的是,在過去的五到六年中,閃存的成本已大幅下降,但是機械硬盤存儲成本仍然很低。同時,對非結構化數(shù)據(jù)的性能要求僅在過去幾年中有所提高。現(xiàn)代的非結構化數(shù)據(jù)存儲系統(tǒng)需要非常快速地處理元數(shù)據(jù)和實際數(shù)據(jù)。盡管一些全閃存供應商聲稱對性能的需求勝于對容量的需求,但在PB級的環(huán)境中,采用PB級或更多的閃存介質(zhì)是不切實際的。
現(xiàn)代的非結構化數(shù)據(jù)存儲系統(tǒng)需要智能地使用閃存和機械硬盤進行存儲,并根據(jù)需要在兩個存儲層之間自動移動數(shù)據(jù)。這些系統(tǒng)可以從較低的閃存成本中受益,以增加閃存容量并減少緩存丟失的影響。但他們也需要利用機械硬盤存儲來控制成本。現(xiàn)代的非結構化數(shù)據(jù)存儲系統(tǒng)還需要利用云存儲來實現(xiàn)長期存檔和工作負載的可遷移性。
元數(shù)據(jù)必須擴展
另一個要求是,元數(shù)據(jù)必須擴展以跟上非結構化數(shù)據(jù)集的增長。管理元數(shù)據(jù)尤其重要,因為許多非結構化數(shù)據(jù)工作負載現(xiàn)在正在處理數(shù)百萬甚至數(shù)十億個文件。當然,每個文件都生成元數(shù)據(jù)。大多數(shù)文件系統(tǒng)供應商報告說,所有輸入輸出(IO)中多達80%是元數(shù)據(jù)。在許多情況下,由于元數(shù)據(jù)瓶頸、原有的網(wǎng)絡附加存儲(NAS)和文件系統(tǒng)達到了擴展限制。即使從技術上講,當前的系統(tǒng)可以提供更多的容量,但客戶仍然不得不購買另一個存儲系統(tǒng)。
文件系統(tǒng)還應該利用閃存來應對PB級非結構化數(shù)據(jù)集造成的元數(shù)據(jù)挑戰(zhàn)。寫入或修改數(shù)據(jù)時,文件系統(tǒng)應提取有關文件的元數(shù)據(jù),并將其存儲在閃存的單獨區(qū)域中。將元數(shù)據(jù)存儲在閃存中不僅可以快速訪問元數(shù)據(jù)請求(同樣,所有IO中的80%是元數(shù)據(jù)),還可以隔離這個IO,從而使實際數(shù)據(jù)的路徑不再那么繁忙。
容量必須擴展
為了應對PB級元數(shù)據(jù)挑戰(zhàn),使網(wǎng)絡附加存儲(NAS)或文件系統(tǒng)能夠提供比上一代存儲解決方案更大的容量,這意味著文件系統(tǒng)需要擴展。它通過集群稱為節(jié)點的商品服務器來完成擴展。每個節(jié)點都具有閃存和硬盤的內(nèi)部存儲容量,并將該存儲分配到全局存儲池中。當組織需要更多容量時,IT部門會添加另一個節(jié)點,以向全局池存儲提供其容量。
洞察力就是力量
另一個必備條件是數(shù)據(jù)洞察力。給定文件數(shù)量及其消耗的容量,IT團隊需要盡可能多地了解數(shù)據(jù)集。問題在于大多數(shù)文件系統(tǒng)在添加事實之后會添加自己的見解,因此它們必須逐個文件人工掃描其文件系統(tǒng)以訪問這些見解。這些掃描要花費大量時間,尤其是在文件系統(tǒng)中,文件系統(tǒng)的數(shù)量高達數(shù)百萬個(有時甚至數(shù)十億個)。
IT部門需要實時可行的數(shù)據(jù)來監(jiān)視系統(tǒng)性能和容量利用率。這些團隊需要立即識別出一個失控的過程是否正在消耗所有文件系統(tǒng)的可用IO。實時分析要求從一開始就將這種功能構建到文件系統(tǒng)中,而不是在以后添加它。如果文件系統(tǒng)將元數(shù)據(jù)從實際數(shù)據(jù)中分離出來,并將其存儲在閃存介質(zhì)中,則文件系統(tǒng)的分析功能可以立即獲取該數(shù)據(jù),并為組織提供實時答案。
PB級的非結構化數(shù)據(jù)環(huán)境與以TB為單位的環(huán)境有所不同。與傳統(tǒng)的非結構化數(shù)據(jù)工作負載相比,其用例傾向于創(chuàng)建和需要訪問更多的文件。存儲容量經(jīng)常超過1PB,許多組織的存儲容量都在幾十PB的范圍內(nèi)。考慮到人工智能和機器學習的興起,以及數(shù)字媒體的新需求,對文件系統(tǒng)的需求將會增加。
現(xiàn)代的非結構化數(shù)據(jù)存儲解決方案需要全面應對這些挑戰(zhàn)。由于多種原因,很多組織需要采用閃存,而又不能放棄機械硬盤節(jié)省成本的潛力。同時,這些系統(tǒng)需要提供對數(shù)據(jù)的洞察力,以便IT部門可以有效地對其進行管理。