開源軟件發展史:Hadoop的昨天與今天
你了解Hadoop分布式計算平臺的過去與現在嗎?Hadoop是基于Java的開源軟件架構,運行分布的、數據密集型應用。它能夠讓應用安全擴展以處理數千個節點以及PB級數據。日前,Apache透露Hadoop將脫離雅虎,由Hortonworks管理。下文中將提到許多Hadoop分布式系統以及這五年來的開源軟件的發展史。
Hadoop是一種針對大數據分析的開源分布式計算平臺,是由Apache軟件基金會主席Doug Cutting在雅虎時創建。近日在美國圣克拉拉第五年度Hadoop峰會上發布了不少關于Hadoop的重大新聞。
首先,Cutting透露Hadoop將要正式脫離雅虎,由Hortonworks管理,Hortonworks是一個由風投公司創新的新公司,是根據Seuss博士的電影“霍頓奇遇記”中的大象角色的名字命名的。
第二, Hadoop技術從一個科學項目到主流的商業應用經歷了五年的時間。Hortonworks這個名字對新公司來說恰到好處,因為對它與Hadoop一樣,是以一個玩具大象的名字(總裁兒子的玩具)來命名的。
Apache Hadoop是一個基于Java的開源軟件架構,運行分布的、數據密集型應用。它能夠讓應用安全擴展以處理數千個節點以及PB級數據。越來越多的企業發現他們需要分析存儲的數據來幫助他們做更好的業務決策。目前市場中有許多Hadoop分布式系統,這將在下文中提到。另外,文中還會提到這五年來的開源軟件的發展史。
1、雅虎創立Hortonworks 引導Hadoop社區

6月29日,風投公司投資創建了獨立的私人公司Hortonworks,來引導Hadoop社區,并推廣開源產品。曾經是其母公司的雅虎,現在是它的客戶之一。
2、Hadoop不再是科學項目了

雅虎將Hadoop從創始人Doug Cutting的科學項目中變成一個世界級平臺,僅用了五年的時間。貢獻了超過70%的代碼,使其成為IT產業里優秀的大數據平臺。#p#
3、Hadoop是IBM沃森的關鍵部分
Hadoop的分析和數據發現能力是IBM Watson計算機能夠在《危險邊緣》比賽中戰勝另外兩位人類前冠軍的重要原因。
4、最大的部署:每天200PB的數據
在技術領域最大的部署環境(例如雅虎),每天Hadoop于分析超過200PB的數據,讓雅虎變得更人性化,更貼近用戶和客戶。它與雅虎IT系統的方方面面進行協作,包括包括搜索、廣告、用戶體驗和欺詐發現。#p#
5、給力的系統 應對大數據
雅虎的Hadoop系統包括超過4萬2千臺的服務器,以及由4000臺設備組成的集群,每個月能夠處理超過500萬份工作。每天都會有1400萬份新文件進入Hadoop系統,這一切根本就是小菜一碟。
6、Hadoop或圍繞平臺出售服務
Hadoop軟件是作為一個開源項目可免費獲得的,未來將推出一系列高級服務針對那些需要更高級別服務的企業。#p#
7、抗擊垃圾郵件立大功 個人頁面自由定制
Hadoop讓2.89億個雅虎郵箱免受垃圾郵件侵擾。另外,Hadoop還在1300萬個按個人使用習慣定制的web界面中扮演了關鍵的角色。
8、不僅僅是應對網絡流量
Hadoop已經演進到不僅僅局限于應對網絡流量和科學研究(圖為歐洲核子研究中心超級對撞機)。現在它還用于搜索引擎、廣告優化、機器學習和內容 力改進和內容提供。它每天能夠向研究集群中載入10TB的數據。#p#
9、Hadoop新型公司快速成長
MapR、Zettaset、Cloudera、HStreaming、Hadapt、DataStax、Datameer這些與Hadoop相關的新公司已經獲得投資,為人們所熟知,為各種市場帶來最新技術。
10、Hadoop仍需改進
雅虎和Hortonworks的高層已承認Hadoop仍然需要時間去發展,以便更加容易的使用,尤其是用戶交互界面需要更加的完善,不過兩家公司的團隊都相信他們將在數月內解決這個問題。
原文:http://stor-age.zdnet.com.cn/stor-age/2011/0719/2047554.shtml
【編輯推薦】