AWS數據倉庫服務Redshift是最好的選擇嗎?
AWS用戶大會最大的新聞就是:數據倉庫服務Redshift的發布,這是一個基于云的數據倉庫服務。與此同時也帶來了一個新的問題:云計算是數據倉庫最好解決方案嗎?
我們不否認,AWS一直在努力的實現數據的高效管理,當然云計算可以幫助企業實現一個低成本的基礎設施搭建,從而更好的對網站進行管理。但是公有云似乎拖住了Redshift前進的步伐,因為很多人認為把自己敏感的財務數據或者是個人身份資料放到云端是很不安全的。不僅如此,如何把數據遷移到云端這也是一個很大的難題。
這也是實現云端的數據倉庫的最大挑戰:如何把數據遷移到AWS的云端。這些TB級甚至是PB級的數據在遷移到AWS云端的過程中,不僅僅只是安全性問題,甚至有可能耗盡帶寬。不過AWS連接著第三方的供應商網站就像Equinix,就可以直接連接到云端。AWS的官員表示通過“shipping service”傳輸物理磁盤上的數據是一種很常見的方式,這也有利于用戶在AWS上獲取和發送數據。
當然,數據遷移到云端和那些已經在AWS云端的數據是不一樣的,這種情況多數是初創公司,他們一開始就把一切部署到AWS這個平臺之上。在本次大會的第二天,AWS就釋放了一個千兆鏈接的數據通道來幫助用戶實現數據的遷移工作。但是許多企業已經擁有了自己的數據倉庫,很難考慮這項服務,當然也不排除他們也會在Redshift上測試新的數據倉庫服務。Wikibon項目的大數據研究員Jeff Kelly暗示,如果公司擁有敏感的信息如財務數據或個人身份資料等等的話,那么可能還需要一段時間來做決定。
優勢在于成本,讓企業專注于核心競爭力
Redshift最大的優勢在于成本低廉。亞馬遜對Redshift在Amazon.com上的零售業務上已經進行了測試,結果表明每年的成本僅僅是32000美元,對比老牌玩家“百萬美元”級別的數據倉庫,Redshift無疑是一個很好的選擇。傳統的數據倉庫的應用軟件的花費在19000美元到25000美元之間(G/每年),而在Redshift上只需要1000美元(G/每年)。

AWS首席數據科學家Matt Wood認為,對于大公司來說,這是一個潛在性的成本節約,更重要的是Redshift消除了構建數據倉庫的“壁壘”,讓中小型企業構建數據倉庫變成了可能。與此同時他表示,Redshift和其他的AWS服務可以讓企業更專注于自己的核心業務,而不用耗費太多的精力來管理基礎設施。
Matt Wood:“Redshift旨在消除那些大規模的基礎設施對企業的拖累,進而可以讓企業專注于自己核心的競爭力。”#p#
數據倉庫服務水太深,而且Redshift強敵環伺
但是有一個問題,如果AWS認為云計算的解決方式非常適用于數據倉庫,那么,為什么沒有其他的供應商這樣做呢?Kognitio,一個歐洲的數據管理和商業智能平臺,早期已經有一些傳聞——將推出基于云的數據倉庫,而且試圖進軍美國的企業市場,但是從兩年前開始到現在,并沒有取得任何的成果。像Oracle、微軟、IBM和其他數據倉庫中的“老牌玩家”同樣可以啟用基于云的數據倉庫服務,但是為什么他們卻一直沒有展示自己這方面的能力呢?
Kelly表示,不僅僅如此,還有不少“新玩家”在涉足這個領域。EMC和VMware最近宣布他們的——Pivotal Initiative,這是一個結合了大數據和基于云計算的技術;還有Google的BigQuery服務,對此也是“虎視眈眈”。
Redshift可以說是AWS一個自然的進化。當然,亞馬遜一直在努力加強自身的產品和服務進而攫取更大的企業市場份額,這是顯而易見的事情,從最近推出的新服務像Redshift和Glacier,還有AWS的高管在本次大會上闡述了很多關于企業市場的情況,都展示出亞馬遜的“勃勃雄心”。不過Redshift目前仍處于初期階段,目前也只有一個“閹割”的beta版,推出全功能的Redshift可能還需要很長一段時間。
Redshift是個“先行者”
其實目前的大多數企業還沒有準備好使用云端的數據倉庫。不過數據倉庫研究所的數據管理研究主任Philip Russom認為,Redshift應該是AWS的一個探索,它屬于這個市場上的先行者。“如果你作為一個供應商,必須有領先于市場的需求才能趕得上市場的發展。”他同時補充道,“亞馬遜在云計算領域有著良好的口碑,所以如果說企業想遷移數據倉庫到云端,那么亞馬遜絕對是最自然的一個選擇。”
當然也存在著一些問題——成本的潛在利益,可管理性,加上用戶很擔心安全和數據傳輸——這可能意味著Redshift將會走亞馬遜其他面向企業服務的老路,至少Wikibon項目的大數據研究員Jeff Kelly是這么認為的。很多前瞻性的企業已經擁抱了亞馬遜的云服務,他們可能會更迅速的接受像數據倉庫這樣的云計算服務。然而對于大企業來說,他們在選擇使用公共云的服務上,一直謹小慎微。當然我們也不排除,他們正在觀察公有云服務的測試,看看公有云服務是否符合自身的發展。
Kelly認為:“Redshift肯定能夠帶來一些利益,數據倉庫發展的一個很重要的問題(當然上文也多次提及),就是一些關鍵性信息或者說專有信息的所有者不愿意把數據放到云端。但是有一些組織的數據是孤立的,它就會產生各種不同的需求。也有一些公司,根本沒有自己的基礎設施來管理數據倉庫,那么Redshift就是一個極具吸引力的選擇。顯然,如果你已經在云端做相關的數據管理,尤其是正在使用亞馬遜的云,這可能就是一個很好的機會來嘗試這一新型的云服務。