看Hadoop解決數據處理的三大瓶頸
越來越多的大企業的數據集以及創建需要的一切技術,包括存儲、網絡、分析、歸檔和檢索等,這些被認為是海量數據。這些大量信息直接推動了存儲、服務器以及安全的發展。同時也是給IT部門帶來了一系列必須解決的問題。
信息技術研究和分析的公司Gartner認為海量數據處理應該是將大量的不同種類以及結構化和非結構化的數據通過網絡匯集到處理器和存儲設備之中,并伴隨著將這些數據轉換為企業的商業報告。
海量數據處理的三個主要因素:大容量數據、多格式數據和速度
大容量數據(TB級、PB級甚至EB級):人們和機器制造的越來越多的業務數據對IT系統帶來了更大的挑戰,數據的存儲和安全以及在未來訪問和使用這些數據已成為難點。
多格式數據:海量數據包括了越來越多不同格式的數據,這些不同格式的數據也需要不同的處理方法。從簡單的電子郵件、數據日志和信用卡記錄,再到儀器收集到的科學研究數據、醫療數據、財務數據以及豐富的媒體數據(包括照片、音樂、視頻等)。
速度:速度是指數據從端點移動到處理器和存儲的速度。
Kusnetzky集團的分析師Dan Kusnetzky在其博客表示“簡單的說,大數據是指允許組織創建、操作和管理的龐大的數據集和存儲設施工具”。這是否意味著將來將會出現比TB和PB更大的數據集嗎?供應商給出的回應是“會出現”。
他們也許會說“你需要我們的產品來管理和組織利用大規模的數據,只是想想繁雜大量的維護動態數據集帶來的麻煩就使人們頭疼“。此外海量數據的另外一個價值是它可以幫助企業在適當的時機作出正確決策。
從歷史上看,數據分析軟件面對當今的海量數據已顯得力不從心,這種局面正在悄然轉變。新的海量數據分析引擎已經出現。如Apache的Hadoop、 LexisNexis的HPCC系統和1010data(托管、海量數據分析的平臺供應商)的以云計算為基礎的分析服務。
101data的高級副總裁Tim Negris表示海量數據的收集以及存放和利用海量數據實際上完全是兩回事。在做任何事前需要大量(準備數據)的工作是像Oracle和大多數數據庫廠商所面臨的難題之一。我們正是要消除這個難題,并把數據直接交到分析師的手中。Hadoop和HPCC系統做到了這一點。這三個平臺都著眼于海量數據并提供支持。
開源的Hadoop已經在過去5年之中證明了自己是市場中最成功的數據處理平臺。目前Cloudera的首席執行官和Apache基金會的Doug Cutting是Hadoop的創始人,他曾在Yahoo工作過。
Hadoop將海量數據分解成較小的更易訪問的批量數據并分發到多臺服務器來分析(敏捷是一個重要的屬性,就像你更容易消化被切成小塊的食物)Hadoop再處理查詢。
“Gartner和IDC的分析師認為海量數據的處理速度和處理各種數據的能力都是Hadoop吸引人們的地方”。Cloudera的產品副總裁Charles Zedlewski說到。
在Cutting和他的Yahoo團隊提出Hadoop項目之后,在Yahoo IT系統測試并廣泛使用了很多年。隨后他們將Hadoop發布到開源社區,這使得Hadoop逐漸產品化。
【編輯推薦】