為大數據存儲作好準備的12個要點
譯文【51CTO.com快譯】眼下北美正處于颶風季節――那些存儲專業人士似乎認為已經受住了大數據存儲領域的風暴,最好還是小心為妙。由于Hadoop之類的非結構化數據存儲技術,盡管數據一年比一年瘋狂增長,他們還是開始可以輕松應對。其實他們還沒有看到真正的挑戰。存儲領域的每個方面(本地、私有云和公共云)即將面臨一場數據颶風,這場颶風會讓過去幾年的風暴如同一陣微風。
Wikibon的分析師伯特·拉塔莫爾(Bert Latamore)說:“雖然大數據和物聯網在如今的公共云工作負載中只占極小一部分,但兩者都在迅速增長。到2020年,這兩個領域會成為公共云市場的主角。”
下面這些要點可以幫助你應對潮水般涌來的大數據。
1. 大數據存儲,大數據問題
StorageIO集團的分析師格雷格·舒爾茨(Greg Schulz)表示,大數據存儲的最大挑戰之一是大數據有許多不同的類型、層面和方面,其中一些是龐大、快速的數據流,包括視頻和監控畫面,另一些是日志、事件及其他遙測數據,另外還有大量傳統的非結構化文件和對象。當然,共同的主題是,有的有更多數據(體量),有的更龐大(大小),有的是非結構化數據。因此,有必要了解你在處理哪種類型的大數據,以便確保該數據得到適當的處理。
舒爾茨說:“面臨的挑戰包括如何處理和擴展管理,又不增加成本和復雜性,同時又解決性能、可用性、容量和成本等方面的問題。這意味著,重新考慮如何存儲數據、存儲在哪里,這還關系到應用程序位于哪里(位于本地還是云端),以及如何訪問(塊、文件還是對象)。
2. 應用程序的位置
在過去,你可以把所有數據集中起來,讓應用程序從遠端獲取這些數據。但這種方法往往造成太多的瓶頸。
舒爾茨說:“讓數據靠近使用數據的應用程序所在的地方;如果那些應用程序在云端,那么把數據放在云端;如果應用程序在本地,就把數據放在本地。關鍵是要了解應用程序,它們所在的位置,它們如何使用數據,然后使用滿足要求的相應技術。另外,要了解你的應用程序是否需要對象、需要哪個API進行訪問,或者它們是否與向外擴展型NAS兼容。”
比如說,一些應用程序可能最好使用Hadoop分布式文件系統(HDFS)或另一種其他的文件共享平臺,而其他應用程序應使用亞馬遜S3、Swift或其他形式的對象存儲。他補充道,還要牢記你將如何存儲和管理元數據,以支持大數據應用程序。
3. 分叉的存儲策略
451 Research公司的分析師西蒙·羅賓遜(Simon Robinson)認為在未來,閃存層(高性能)滿足快速存儲數據的要求,而其他一切數據進入到針對成本經過優化的存儲層,這些存儲層得到對象存儲(大容量)的支持。有各種各樣的存儲分層場景對應于特定的企業要求。這里的關鍵是數據在存儲層之間實現無縫、自動化的移動,那樣最終用戶甚至不知道還有分層這回事。
4. 足夠重視大數據
說到有效地管理數量不斷增加的大數據,有必要花時間來制定這種戰略:不僅滿足短期要求,還可以隨著時間的推移來擴展,從而有效地支持你。否則,你最后面臨的軟硬件部件就會到達再也無法有效擴展的地步。因此在購買之前,仔細調查技術的擴展性有多好。在大數據環境下,最好擴展性足以處理大量涌入的存儲數據。
DataDirect Networks(DDN)的營銷戰略和運營高級主管邁克爾·金(Michael King)說:“如果另外添加的每個存儲卷要花越來越長的時間來管理,增添存儲卷的結果似乎沒有帶來預期的容量和性能,這就表明現有的軟硬件部件到了它們再也無法有效擴展的地步。”
5. 對元數據進行分類
對數據進行分類是明智之舉,因為這讓你能夠知道數據是什么樣的數據,能夠搜索元數據來找到它。長長的文件名在過去也許行得通,但由于數據高達100%的同比增長率,現在不管用了。
Spectra Logic公司的首席技術官馬特·斯塔爾(Matt Starr)說:“對數據進行分類是應對數據急劇增長的最佳方法之一。在數據創建時收集元數據,并將至少兩份數據存儲在不同的介質上,比如一份存儲在磁帶上,另一份存儲在磁盤上。”
6. 將容量和計算分開來
另一個技巧是建立將容量和計算分開來的向外擴展型存儲系統。由于數據變得越來越大,建立這樣的一套IT基礎設施很重要:可擴展,非常適合實際要求,又不過度配置資源。
Kaminario公司的首席技術官沙恰·菲恩布利特(Shachar Fienblit)說:“要做到這點,一個辦法是花錢建立可獨立擴展容量和計算的存儲基礎設施。”
大數據存儲解決方案應該支持多種協議,簡化處理數據的方式。實時分析使得存儲工作負載越來越不易于預測。這就是為什么閃存是存儲和處理大數據工作負載的首選存儲介質。由于閃存介質的成本降得很快,業界會看到越來越多的大數據工作負載在純閃存陣列上運行。
7. 大眾化硬件
向外擴展型對象存儲是處理這些問題的最有效途徑之一,因為數據得到持續保護,又不需要備份。但是你如何把硬件成本降下來呢?
Caringo公司的產品副總裁托尼·巴伯加洛(Tony Barbagallo)說:“如果運行在大眾化x86服務器上,對象存儲讓你可以無縫地升級硬件,因為這些設備運行起來如同模塊化裝置,可在不降低效率的情況下整合起來。”
8. 目光長遠
說到大數據預測,很顯然存儲管理員最好為數據增長做好正確的規劃。不過,大多數人的眼光不夠長――他們習慣于只考慮一年后、兩年后或三年后的情形。這根本談不上目光有多長遠。
巴伯加洛說:“想一想5年后、10年后甚至20年后的情形。確保你選擇的解決方案可伴隨要求而演進,不會害得你被專有硬件牢牢束縛。”
9. 別一味依賴磁盤
市場研究機構Gartner表示,我們在過去兩年生成的數據比整個人類歷史還要多。不過,存儲架構方面的變化沒有跟上數據需求的步伐。
根據克萊德定律,每13個月,每英寸磁存儲面積上的磁盤密度就會翻一番。
Infogix公司的金融服務行業(FSI)戰略和運營經理森提爾·拉賈曼尼坎(Senthil Rajamanickam)說:“如果存儲密度的變化符合克萊德定律,那么到2020年,一只雙盤片的2.5英寸硬盤其容量將達到40 TB,成本為40美元。”
這本身足夠了不起,但是還是無法足以處理所有的大數據。為了跟上大數據增長的步伐,固態硬盤、磁帶和云這些都不可或缺。
10. 暗數據
不使用的操作型數據被稱為暗數據。Gartner稱之為“企業在日常業務活動的過程中收集、處理和存儲,但通常不用于其他用途的信息資產。”
而這樣的暗數據其實有很多。
拉賈曼尼坎說:“防止大數據環境下出現暗數據需要數據控制,以便在數據獲取期間審查/監控進入的數據,并且清查大數據環境。”
11. 除了容量,還有速度
圍繞大數據的討論主要側重于擁有足夠的容量。但數據速度是個同樣重要的問題。因此,在設計存儲系統的架構之前,必須考慮大數據速度這個因素。
拉賈曼尼坎說:“支持高度實時性的事件流這個存儲要求與處理不斷增長的日志數據大不一樣。”
12. 全部采用云,還是部分采用云?
一些人試圖通過把數據留在內部來處理大數據。但其他人可能更喜歡把數據全部倒入到云端,確保有效管理數據,以控制成本。不過,大多數人可能會找到一種折中方案。
Avere Systems公司的產品管理和營銷高級主管杰夫·泰伯(Jeff Tabor)說:“混合云方法讓你可以繼續在本地的數據中心中運行系統,同時將一些系統遷移到云端來運行。如果存儲是你的主要問題,第一步是使用存儲網關,把舊數據遷移到云端。如果計算是你的主要難題,云突發(cloud bursting)技術讓你可以把數據留在本地數據中心的原來位置,開始在公共計算云處理數據。”
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】