PB級大數據存儲技術解析
越來越多的存儲產品都在融入 大數據 的概念和功能,并使之成為產品的一大賣點。但對于從事存儲管理的專業人員來說,對“ 大數據 ”在具體應用場景中的特點和區別有所了解。
對于存儲管理人員來說,大數據應該分為大數據存儲和大數據分析,這兩者的關系是——大數據存儲是用于大數據分析的。然而,到目前為止這是兩種截然不同的計算機技術領域:大數據存儲致力于研發可以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關注在最短時間內處理大量不同類型的數據集。
在快速變化的技術趨勢中有兩個特點需要存儲管理人員重視起來。
第一,大數據分析流程和傳統的 數據倉庫 的方式完全不同,其已經變成了業務部門級別和數據中心級別的關鍵應用。這也是存儲管理員的切入點。隨著基礎平臺(分布式計算或其它架構)變得業務關鍵化,用戶群較以往更加地依賴這一平臺,這也使得其成為企業安全性、數據保護和數據管理策略的關鍵課題。
第二,通常用于數據分析平臺的分布式計算平臺內的存儲不是你以往面對的網絡附加存儲(NAS)和存儲區域網絡(SAN)——其通常是內置的直連存儲(NAS)以及組成集群的分布式計算節點。這使得管理大數據變得更為復雜,因為你無法像以前那樣對這些數據部署安全、保護和保存流程。然而,執行這些流程策略的必要性被集成在管理分布式計算集群之中,并且改變了計算和存儲層交互的方式。
大數據分析和傳統的數據倉庫的不同
大數據分析中包含了各種快速成長中的技術。因此,簡單用某一種技術嘗試對其定義,比如分布式計算,會比較困難。不過,這些定義大數據分析的通用性技術可以用如下特征闡述:
對于傳統數據倉庫處理流程效率和擴展性方面限制的感知。將數據,不論是結構化還是非結構化數據從多個數據源匯聚的能力。以及認識到數據的及時性是擴展非結構化數據源的關鍵,其中包括移動設備,RFID,網絡和不斷增長的自動化感知技術。
傳統的數據倉庫系統通常從現有的關系型數據庫中抓取數據。然而,據估計超過80%的企業數據是非結構化的,即無法關系型數據庫管理系統(RDBMS),比如DB2和Oracle完成的數據。一般而言,處于此次討論的目的,非結構化數據可以看成所有無法簡單轉化到結構化關系型數據庫中的所有數據。而企業現在希望從這些非結構化數據類型中抽取有價值的信息,包括:
- 郵件和其它形式的電子通訊記錄
- 網站上的資料,包括點擊量和社交媒體相關的內容
- 數字視頻和音頻
- 設備產生的數據(RFID,GPS,傳感器產生的數據,日志文件等)以及物聯網
在大數據分析的情況下,查看遠多于RDBMS的數據類型十分必要——這代表了各種重要的新信息源。并且隨著每年非結構化數據存儲總量較結構化數據增長率高出10到50倍,從業務角度看這些數據也變得更為重要。
更重要的數據需要更專業的人員進行分析。但傳統的數據倉庫技術對海量非結構化數據的處理根本無法滿足大數據的需求。所以,存儲管理人員也應該更快的跟隨技術潮流,更新自己的技術和知識結構,提高自己對大數據的管理和分析能力。