Hadoop是大數據平臺的唯一?
原創作者:鳶瑋
“忽如一夜春風來,千樹萬樹梨花開。”用岑參的這句詩形容大數據最為形象不過了。隨著云計算日漸成熟,大數據話題好像突然變得尤為火熱,大數據時代正在悄然降臨。而提到大數據,不得不說的是與大數據相關的技術名詞,Hadoop、MapReduce、Hbase、NoSQL等,業界的眾多廠商也都開始從技術入手,打造各自的大數據解決方案,一時間,Hadoop成為了大數據的代名詞。
“忽如一夜春風來,千樹萬樹梨花開。”用岑參的這句詩形容大數據最為形象不過了。隨著云計算日漸成熟,大數據話題好像突然變得尤為火熱,大數據時代正在悄然降臨。而提到大數據,不得不說的是與大數據相關的技術名詞,Hadoop、MapReduce、Hbase、NoSQL等,業界的眾多廠商也都開始從技術入手,打造各自的大數據解決方案,一時間,Hadoop成為了大數據的代名詞。
大數據就是Hadoop?
一提到大數據,首先想到的就是Hadoop,Hadoop是由Apache基金會開發的分布式系統基礎架構,用戶可以在不了解分布式底層細節的情況下開發分布式程序。而大數據就是Hadoop么?開源技術Hadoop可以提供相對廉價的分布式的存儲系統,通過MadReduce的技術,進行并發、高效能的計算。大數據引擎基本上完成是存儲和計算,但真正的存儲計算結果還要與傳統的業務系統和其他應用來使用。
IBM軟件集團大中華區信息管理軟件總經理盧偉權認為,“Hadoop只是大數據平臺中的一部分,Hadoop里沒有管理工具也沒有匯總數據的功能。大數據不單使用Hadoop平臺做靜態的分析,因為靜態的分析只是把過去的數據倉庫靜態的數據做了延伸而已。”此外,大數據不能只是處理底層靜態架構的數據,不能只是考慮數據的存儲等,更多的是將數據進行動態和實時的分析,從而更好的為業務做出決策,提高競企業競爭優勢。
IBM軟件集團大中華區信息管理軟件總經理盧偉權
大數據的第四個“V"
我們提到大數據的特性的時候,往往會想到3個V,即容量(Volume)、速度(Velocity)和多樣性(Variety),現在數據容量越來越大,數據處理的量級上正從TB級向ZB級擴張,信息量膨脹不僅涉及到存儲問題,同時也是一個巨大的分析問題;數據量增長越來越快,需要處理的速度和響應的時間越來越快,對系統的延時要求相當高。現在的數據是各種各樣類型,過去的數據更多的是結構化的,現在越來越多的數據是半結構,甚至是非結構化的數據,各種各樣的數據都大量進入企業的服務器、數據中心,所以大數據產生了很多的挑戰,這么多數據怎么樣把它變成信息,怎么樣把信息變成知識,把知識變成決策,這就需要有更多的很好的數據處理能力。
大數據的宗旨也是如此,在處理數據和信息的過程中發掘其背后的商業價值。而如今,IBM提出了另一個維度來看待大數據,也就是第四個V,數據的真實性(Veracity)。IBM軟件集團大中華區業務分析洞察及智慧地球解決方案總經理卜曉軍認為,如今要做的決策來自于可確認的信息,而世界產生的信息是各個維度,若不分析數據就只是存在數據庫里的數據,只有分析了才能發現數據的內在價值。大數據是原始的數據,數據的展示角度不同,其中有些數據是不為所用的,需要對數據進行質量的分析或是真實性的分析,最重要的是分析的結果要準確。盧偉權表示,“IBM除了可以對傳統的數據倉庫和數據信息進行管控和審計,也可以對來自不同信息源的大數據信息進行真實性審核并實現有效管控,這也是IBM在業界特別強于其他廠商重要的維度。”
IBM軟件集團大中華區業務分析洞察及智慧地球解決方案總經理卜曉軍
IBM 端到端的大數據方案
IDC研究表明,數字領域存在著1.8萬億GB的數據,企業數據正在以55%的速度逐年增長。IBM認為,“大數據”已經成為重要的時代特征,企業需要重新思考已有的IT模式,應對在數量和類型上不斷新增的數據;同時,大數據又將推動企業進行基于信息革命的業務轉型,更多商業價值和發展機會將產生于數據和洞察。
基于“3A5步”動態路線圖,IBM結合信息管理、業務分析等軟件,提出“大數據平臺”架構,該平臺的四大核心能力包括Hadoop系統、流計算(Stream Computing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。
IBM智慧的分析洞察- 3A5步動態路線圖
IBM大數據平臺
IBM在Hadoop系統領域的代表產品是InfoSphere BigInsights,它是基于開源Apache Hadoop框架實現,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究實驗室的數據分析、機器學習技術以及文本數據分析挖掘;IBM在流計算領域的代表產品是InfoSphere Streams,是目前業界獨有的流數據處理技術。Streams能夠在對諸如氣象信息、通訊信息、金融交易數據的管理中動態捕捉信息、進行實時分析,能夠對靜態數據的處理提供有效補充;在數據倉庫方面是InfoSphere Warehouse和etezza。Netezza克服了傳統數據倉庫在面臨大數據挑戰時的瓶頸,可以將大量數據整合到統一的平臺上,計算能力高達TB級。通過與Cognos和SPSS等卓越的業務分析工具相結合,實現了定制化的分析功能;信息整合與治理是IBM在業界獨有的方法論和技術,其代表產品是Optim和Guardium。近期推出的Guardium 9能夠將如DB2這樣的傳統關系型數據倉庫和基于Hadoop的分布式存儲系統進行統一管理,并提供完整的數據生命周期管控。此外,Guardium 9也能夠管理除IBM之外的第三方數據平臺,幫助客戶保持在原有的系統的基礎上,最小成本、最大能力地提高信息安全和質量。
責任編輯:鳶瑋
來源:
51cto.com