瘦身有道 主存儲器數據縮減六大方法
已經成為許多備份和歸檔產品標準的數據縮減功能,正在主存儲上變得越來越流行了。產生這種現象的驅動力是可量化的成本節約,從不得不購買更少的磁盤來減少每年的支持費用,到減少存儲管理相關的運營花費。數據縮減在存儲性能方面還有一個令人高興的影響:通過減少不活躍數據對于昂貴的高性能存儲的占用,使整個存儲和應用系統的性能可以獲得可喜的提升。
在典型的企業里,按照存儲網絡工業協會(SNIA)的研究,存放在主存儲上80%的文件在最近30天內沒有被訪問;同一份報告還指出,不活躍數據的增長是活躍數據的四倍。考慮到這些事實,數據縮減技術已經開始進入主存儲領域就不覺得奇怪了。
然而,對比備份和歸檔系統所使用的數據縮減方法,主存儲系統不能夠容忍任何一點對于性能和可靠性的影響,這是主存儲系統最相關的屬性。因此,數據縮減技術發生了變化,并且在主存儲上和用在備份和歸檔系統上采用了不同的方式。在備份和歸檔系統上,重復數據刪除和壓縮是主要的數據縮減手段,而對于主存儲系統,那些技術明顯變得更加敏感,而且不會像重復數據刪除和壓縮一樣影響性能。這些主要的數據縮減技術正在被應用到主存儲系統中:選擇合適的RAID級別;自動精簡配置;高效克隆;自動存儲分層;重復數據刪除;壓縮。
選擇合適的RAID級別
把“選擇合適的RAID級別”放在數據縮減技術列表的最前面首先看起來好像很奇怪,而且不像其它的數據縮減方法,這只是所有存儲系統都可以使用的一個選項,但它對于磁盤的需求、性能和可靠性都有著很大的影響。如果不考慮可靠性缺陷,RAID 0(跨所有磁盤的塊級別條帶,無校驗或鏡像)會是最劃算和***性能的選擇,但單個磁盤故障將會丟失整個RAID組數據的缺點使其難登數據中心的大雅之堂。另一方面,RAID 1(鏡像,無校驗或條帶)和 RAID 10(條帶化磁盤組鏡像),結合了高性能和高可靠性,但需要兩倍的磁盤容量,因此也是站在數據縮減的對立面的。RAID 5(塊級別條帶化,分布式校驗)盡管需要一塊額外的磁盤,但已成為近些年來***的折衷方案了,但隨著磁盤容量的增長,重建時間也越來越長,在單盤故障后,RAID組重建的時候,丟失兩塊磁盤的風險已經增加到一個不舒服卻不得不接受的水平。因此,存儲廠商們采用了RAID 6,通過對RAID 5增加一塊額外的校驗磁盤,使其能夠經得起兩次磁盤故障而不丟失數據--但隨之而來的有不同程度的性能影響,這與實施情況有關。在購買一個新存儲系統的時候,RAID 6和RAID 6的性能指標都會是要考慮的事情。
“與我們大多數的競爭者不同,我們可以采用只有5%額外開銷的RAID-DP(NetApp公司的RAID 6技術)技術,”NetApp公司的高級存儲技術專家Larry Freeman表示。
自動精簡配置
直到最近,仍然沒有一個真正替代現有按需供應的存儲產品,因此,存儲的利用率一直不高。對于在公司數據中心有幾百個GB的已經分配但還沒有使用過的存儲,這種情況很常見。“在我們使用康貝公司的磁盤陣列和自動精簡配置技術之前,我們依賴用戶幫助我們估計存儲的需求,我們給每個用戶的估計再增加20%到100%,這取決于是什么樣應用系統,” Brandon Jackson,北卡羅來納州加斯頓郡的CIO,描述了這個被許多企業使用以保證足夠的存儲容量的不科學并且浪費的過程。
自動精簡配置技術可以通過允許存儲系統按照實際需要的物理容量進行分配的方式,來終結這種存儲資源浪費式的管理。存儲按需分配到精簡卷。例如,自動精簡配置可以分配一個100GB的卷,盡管它只有10GB的物理存儲。自動精簡配置對于用戶是透明的,用戶會看到一個100GB的卷。精簡供應節約的成本可能會非常巨大,并且使存儲的利用率超過90%.
支持自動精簡配置的廠商正在快速增長,同時,這已經成為選擇存儲系統的關鍵標準之一。可是要記住,并不是所有的自動精簡配置的實施都是相同的。一些系統需要為自動精簡配置設置單獨的區域,而其他所有的容量都可以用來做自動精簡配置而不需要特別的保留。把“thick”卷轉換為“thin”卷的功能,沒有使用的存儲如何恢復以及自動精簡配置的許可方式,是另外一些不同的地方。隨著自動精簡配置存儲的越來越多,物理存儲的耗盡成為自動精簡配置環境中經常出現的風險。因此,告警、通知和存儲分析成為必要的功能,并且對比傳統環境,在自動精簡配置的環境中扮演了更大的角色。
高效克隆
克隆用于對現有的卷建立一個完全相同的復本,這更適用于服務器虛擬化,它可以經常用來克隆虛擬化操作系統卷。克隆最基本最主要的實施是建立源卷的完全拷貝,克隆卷會占用與源卷完全相同的物理存儲。
進一步的升級功能是對于自動精簡配置卷的克隆。而一些存儲系統在克隆期間會把精簡卷轉換為傳統卷,另外一些可以建立精簡卷的克隆,精簡源卷和克隆卷需要分配相同的物理存儲。“我們的Virtual Storage Platform(VSP),能夠通過一個精簡卷建立一個精簡的克隆卷,”日立數據系統公司企業平臺部的高級產品市場經理,Mike Nalls如是說。
最有效的克隆是精簡克隆,克隆卷完全不保留數據,而是根據原始影像。精簡克隆只需要保存原始影像和克隆影像的差異即可,這樣可以節約大量的磁盤空間。換句話,一份***的克隆需要最少的物理磁盤空間,并且只有區別于源影像的克隆變化才會被保存。NetApp公司的FlexClone和Oracle公司的ZFS Storage Appliance(Sun公司ZFS Storage 7000系列)的克隆功能是當今支持精簡克隆的存儲系統。
#p# 自動存儲分層
自動存儲分層是主存儲上減少數據的另外一種機制。一個磁盤陣列能夠把活動數據保留在快速、昂貴的存儲上,把不活躍的數據遷移到廉價的低速層上,以限制tier-1存儲的花費總量。自動存儲分層的重要性隨著固態存儲在當前磁盤陣列中的采用而提升,并隨著云存儲的來臨而補充內部部署的存儲。自動存儲分層使用戶數據保留在合適的存儲層級,因此減少了存儲需求的總量并實質上減少了成本,提升了性能。
自動存儲分層有兩個關鍵的特性:
- 數據從一層遷移到另一層的粒度越精細,可以使用的昂貴存儲的效率就越高。子卷級的分層意味著數據是按照塊來分配而不是整個卷,而字節及的分層比文件級的分層更好。
- 如何控制數據在層間移動的內部工作規則,會決定需要把自動分層放在正確的位置的努力程度。一些系統,像EMC公司的Fully Automated Storage Tiering(FAST),是根據預先定義的什么時候移動數據和移動到哪一層的策略。相反的,NetApp公司和Oracle公司(在Sun ZFS Storage 7000系列中)倡導存儲系統應該足夠智能,能夠自動的保留數據在其合適的層,而不需要用戶定義的策略。
重復數據刪除
在備份和歸檔領域的良好表現,使得重復數據刪除逐漸找到了其進入主存儲的途徑。重復數據刪除用于主存儲最主要的挑戰是性能慢。“去重和性能完全無法相處,” Greg Schulz說,位于明尼蘇達州斯蒂爾沃特的StorageIO Group的創始人和高級分析師。不過盡管如此,重復數據刪除已經找到了進入一些存儲系統的途徑,而大家的跟風只是時間的問題。
NetApp公司為其所有系統提供重復數據刪除選項,并且可以針對每個卷進行激活。NetApp公司的重復數據刪除并不是實時執行的。相反,它是使用預先設置的進程執行的,一般是在閑暇時間執行,通過掃描把重復的4KB數據塊替換為相應的指針。NetApp公司并不對每一個4KB數據塊生成一個唯一的哈希值,而是使用數據塊的校驗和來標識重復的數據塊。為防止哈希沖突,這種情況發生在不同的數據塊卻有著相同的校驗和(哈希)的情況,NetApp公司執行了數據塊級別的比較,并去掉那些重復的部分。至于所關心的性能問題,“我們平均每小時可以去重1TB數據,”NetApp公司的Freeman表示。NetApp公司的重復數據刪除一般是針對單個卷或LUN執行的,并且不會跨越它們。
與NetApp公司相似,Oracle公司在其Sun Storage ZFS 7000系列系統中也具備塊級別重復數據刪除的功能。與NetApp公司不同的是,去重是在其寫入磁盤時實時執行的。“根據環境以及環境中的變化總量,去重的負荷小于7%,” Oracle公司的存儲產品管理高級主管Jason Schaffer說。一些較小的廠商,像BridgeSTOR LLC公司,利用其應用優化存儲(AOS)以支持去重。
另外一個明確投身數據縮減的廠商是戴爾公司。隨著2010年對Ocarina Networks公司的并購,戴爾公司獲得了內容感知的去重和壓縮技術,并企圖把這種技術整合到其所有的存儲系統中。“從下半年開始,我們會發布具有Ocarina去重和壓縮技術的存儲產品,”戴爾康貝的產品市場化主管Bob Fine說。
當前面這些公司開發或收購重復數據刪除技術的時候,Permabit Technology公司已經開發出了Albireo,一個可以授權給存儲廠商的去重軟件庫,使這些廠商為及時適應市場而在其存儲系統中增加重復數據刪除的功能,同時避免了自己開發所帶來的風險。“我們已經有了Xiotech公司、BlueArc公司以及LSI公司三個客戶,我們希望具備Permabit去重功能的***個產品會在2011年晚些時候發貨,” Permabit公司的CEO,Tom Cook說。
壓縮
壓縮和去重一樣,在用于主存儲時面臨許多相同的挑戰。壓縮也有性能負荷;它僅限于一個卷,并且無論什么時候數據要移出這個卷,數據必須要解壓縮,這就像去重后的數據從一個卷遷移到另一個卷的時候必須先恢復。在理想情況下,不同的層,包括備份和恢復層,應該能夠接受并應對壓縮和去重的數據,但因為標準的缺失,他們通常還不能。
壓縮和去重是互補性的技術,提供去重的廠商通常也提供壓縮--BridgeSTOR公司、戴爾公司和Sun公司都是這樣。而對于虛擬服務器卷、電子郵件附件、文件和備份環境來說,去重通常更加有效,壓縮對于隨機數據效果更好,像數據庫。換句話說,在數據重復性比較高的地方,去重比壓縮有效。
除了上述這些廠商以外,EMC公司能夠在其VNX統一存儲產品中提供壓縮功能,以及對于文件內容提供單實例存儲特性,這個功能可以實現對于相同的文件只存儲單個拷貝,它確實達到了一定程度的重復數據刪除功能。IBM公司為前端的NAS存儲提供了Real-time Compression Appliances(STN6500和STN6800);該設備及其壓縮技術來自IBM公司在2010年對于Storwize公司的收購。“Storwize公司的實時壓縮軟件在今年晚些時候將會成為IBM磁盤陣列的功能,在18個月之內,可以用在所有的產品線上,”IBM公司存儲效率戰略主管Ed Walsh說。
#p# 新老技術的并存
主存儲的數據縮減是當今的現實,而且隨著數據的無節制增長,它無疑會成為存儲效率的關鍵部分。數據縮減功能,像RAID 6、精簡供應、高效克隆和自動存儲分層正在變得必不可少,并且成為評價主存儲時的必要特性。另一方面,重復數據刪除和壓縮是新興技術,隨著時間的推移將變得更加普遍,但現在這些相對的新來者剛剛開始對主存儲產生影響。
主要存儲縮減技術
主存儲的快速數據縮減
取回主存儲上寶貴空間最簡單的方法是通過歸檔。公司,像個人一樣,有保留太多東西的傾向。企業在其主存儲上保留了大量某天可能會用到的數據。歸檔可以像遷移數據到歸檔存儲以及在需要的時候恢復到主存儲一樣簡單--零成本。如果想要自動遷移數據到歸檔存儲并恢復到主存儲的,可以使用像賽門鐵克公司的Enterprise Vault或Waterford Technologies公司的歸檔產品,它們可以對已經歸檔的數據,在主存儲上留下一個“存根”,對用戶隱藏文件的真實位置。訪問的時候,歸檔產品會根據“存根”自動拉回數據,對用戶完全透明。