不要讓Hadoop成為Had oops!
過去幾年里,數據量的生成以每兩年翻翻的速度增長,但企業的預算卻沒有相應增長。這意味著要更有創造性地通過更少的方式做更多的工作。這是一個持續且艱巨的挑戰,我沒有一勞永逸的解決方案,但我可以提供一些指導原則,讓你以更好的姿態去面對挑戰。
IDC預測,到2020年,全球數據規模將達到44ZB,即44萬億GB,如果人們無法繼續投資以擴大存儲能力,可能在未來只有15%的數據能夠找到地方加以存儲。
在今天的數據驅動型經濟中,存儲需求往往超出了計算資源的需求,這就導致IT基礎設施無法均衡負載。客戶添加越來越多的服務器用來擴展其大數據和分析功能,然而CPU資源卻并未得到充分利用。這是因為大數據和分析工作通常是存儲密集型,而不是計算密集型。因此,成功應對數據挑戰的關鍵之一就是認識到基礎設施所需的不同增長率,了解到什么會增長,以什么樣的速度增長。
為了應對持續增長的數據挑戰,越來越多的公司創造了一系列技術和工具,用于攝取,傳輸,分析,存儲,預測,剝離等。其結果呈現在你眼前,是一幅充滿各種選擇的巨大地圖,并且這些選擇并不都是平等的:有些是死胡同,有些會把你鎖定到一個特定的供應商,而另一些只能應對今天的問題,更不要說明天或后天了。
可悲的是,一些組織似乎認為,應對數據挑戰非常簡單 :“Just add Hadoop!”,然而直到他們擁有太多的Hadoop或Hadoop裝在了錯誤的位置時,才意識到了問題所在。此外,把硬件和軟件簡單地投入到分析挑戰中,就如同把汽油投入火中,它能燒得更旺,但也可能會燒到你。將技術應用于數據和分析問題時,通常包含著的復雜性。即使是Hadoop,也會面臨多重挑戰。
除了挑戰之外,也有很多選擇讓你無從下手。 選擇Hortonworks、Cloudera、MapR還是BigInsights Hadoop發行版? 是否使用諸如EMC Vblock / VxBlock之類的融合基礎架構或超融合基礎設施(如EMC VxRail和VxRack)?直連式存儲(DAS)是否滿足您的需求,還是應該將計算和存儲分離,使用Isilon為你的數據湖橫向擴展? 相信我,以上這些只是衡量使用Hadoop所需考慮的一部分因素。大象并不是你在叢林中唯一需要擔心的, 了解技術的同時了解其對業務和IT的影響,對成功至關重要。
對于以上這些挑戰,一個有效解決方案是企業級的擴展存儲解決方案,如EMC Isilon。在Isilon上運行Hadoop擁有以下幾個優點。
除了以上優勢,Isilon還通過以下方式為客戶帶來好處:
- 消除Hadoop NameNode維護的昂貴開銷
- 大大減少與處理磁盤故障相關的工作量
- 通過消除Hadoop的典型3X數據復制,幫助管理分析存儲增長的速度
- 減少移動和分段數據的需要,使其可以訪問Hadoop。
對于許多客戶而言,Isilon代表了可擴展性,可用性和性能的***平衡,同時降低了與Hadoop集群相關的運營開銷。沒有任何銀彈能解決爆炸性數據增長所帶來的所有問題,但是應用橫向擴展存儲技術往往有助于減輕痛苦。