成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop:全球熱戀

云計算 Hadoop
Hadoop似乎火了。150家各種規模的企業都在使用Hadoop,包括大公司摩根大通、谷歌和雅虎等,相信這個開源大數據管理系統很快將出現在你的公司里。

   Hadoop似乎火了。150家各種規模的企業都在使用Hadoop,包括大公司摩根大通、谷歌和雅虎等,相信這個開源大數據管理系統很快將出現在你的公司里。

  但是在使用Hadoop前,你***先全面了解Hadoop的相關信息。客戶和業內分析師表示,需要經過專門的培訓和具備一定的分析能力才能使用Hadoop。然而,并非所有公司都符合這個條件。這仍然是一個非常年輕的市場,很多Hadoop供應商都爭相推出各種應用產品,包括云端產品。

  最重要的一點:不要聽信炒作。Forrester分析師James Kobielus指出,只有1%的美國企業在生產環境中使用Hadoop。他預計,“在未來一年中,這個數字將翻一番或者兩番。”但是對于所有極富潛力的技術,我們都應該謹慎。

  可以肯定的是,相比于傳統數據庫管理系統,Hadoop具有更多優勢,特別是處理結構化數據(如關系數據庫中的數據)和非結構化數據(如視頻)的能力。而且Hadoop可以在保持對系統最小干擾度的情況下進行擴展。eBay公司體驗、搜索和平臺副總裁Hugh Williams表示,eBay面對著9PB來自Terabyte集群上的結構化數據以及在“成千上萬”節點上運行的Hadoop集群上的非結構化數據。

  他表示:“Hadoop真的幫了我們大忙。”

  “你可以在相同硬件上運行很多不同類型的不同工作。而在Hadoop出現之前的世界就顯得非常呆板,”Williams說,“你可以采用與之前不同的方式來充分使用集群。它允許你大膽創新,并且門檻很低,非常強大。”

  擴展,再擴展

  Hadoop早期使用者銷售視頻流系統的Concurrent公司同樣需要為其客戶存儲和分析大量視頻數據,為了更好地處理有增無減的數據量,Concurrent公司兩年前開始使用Cloudera公司的Hadoop CDH。


[[57881]]

   Concurrent公司工程總監William Lazzaro

  “Hadoop是我們用來解決大數據問題的‘鐵榔頭’,”Concurrent公司工程總監William Lazzaro表示,“它讓我們在很短時間內能夠處理大量數據。”

  Concurrent公司的一個部門負責收集和存儲關于視頻的客戶統計數據,這也是Hadoop發揮作用的地方,Lazzaro表示:“我們現在有一個客戶一個月要生成和保存30億數據記錄,我們預計在接下來的三個月,這個數字將達到一個月100億數據記錄。”

  過去,Concurrent公司面對的兩個主要局限是:傳統關系型數據庫無法處理非結構化數據(如視頻),并且需要處理和存儲的數據量成倍增長。“我的客戶想要保存數據四到五年,”Lazzaro說道,“當他們每天產生1PB數據時,這將是一個大數據問題。”

  有了Hadoop,Concurrent公司工程師發現他們能夠滿足其客戶日益增長的需求,Lazzaro 表示,“在測試過程中,他們嘗試為該客戶每天處理20億條記錄,通過向節點加入另一臺服務器后,我們發現完全能夠滿足他們的需求,并且能夠迅速擴展。”

  為了對比,該公司使用傳統數據庫進行了相同的測試,發現Hadoop的主要優勢之一在于它可以方便快捷地根據需要增加額外的硬件,而不需要額外的授權費用,因為它是開源產品。

  生命科學和基因組公司NextBio公司是另一個Hadoop用戶,該公司主要負責涉及龐大的關于人類基因測序數據集的項目以及相關科研工作。 

[[57882]]

  NextBio公司工程副總裁Satnam Alag

  “我們引入各種基因組數據,然后使用Hadoop對數據進行處理,并與其他數據集進行比較,”NextBio公司工程副總裁Satnam Alag表示,“Hadoop讓我們可以根據客戶需要對大量公共數據進行分析,我們的客戶范圍包括制藥公司到學術研究人員。”NextBio使用的是來自MapR的Hadoop產品。

  一個典型的完整基因組序列可以包含120GB到150GB壓縮數據,需要0.5TB的存儲容量以進行處理。在過去,該公司需要花費三天來分析這些數據,但現在通過30到40臺運行Hadoop的機器,NextBio的工作人員只需要三到四個小時就可以完成工作。Alag表示:“對于任何需要利用這些數據的應用程序,Hadoop都帶來了很大的變化。”

  Hadoop的另一大優勢是它可以簡單地通過增加更多節點來按需擴展系統。他表示:“如果沒有Hadoop,擴展將是***挑戰性和昂貴的工作。”這種所謂的橫向擴展(增加更多商品硬件節點到Hadoop集群)是非常具有成本效益的系統方式。Hadoop框架“會自動處理集群中失效的節點”。

  這極大地改變了該公司擴大其計算能力以滿足其需求的方式。他表示:“我們不想在基礎設施上花費太多錢,我們并沒有那么多資金。”#p#

  新類型應用層出不窮

  Hadoop的一個巨大優勢在于它能夠對大量數據集進行分析并迅速發現趨勢。對于一家大型零售商,這可能意味著分析Facebook或者Twitter用戶數據以了解上一季流行什么顏色的圍巾,將分析結果與現在的熱門顏色流行趨勢相比較就能夠幫助確定本季度銷售什么顏色的圍巾。

  “它讓你能夠從過去的數據中尋求新的銷售機會,”Lazzaro說道。Concurrent公司就曾為一家汽車經銷商分析商業廣告數據,“我們可以從數據看出哪些人查看了商業廣告,然后就可以確定消費群。”

  傳統數據庫能夠滿足很多數據分類和分析需要,但對于超大規模數據集,Hadoop能夠更有效地找出信息,Lazzaro表示:“Hadoop就是為了這個目的而設計的。”

  對于eBay來說,eBay的工程師“喜歡和非結構化數據打交道,以及迅速為eBay建立新產品,”Williams表示,eBay工程師可以訪問該公司的3億份清單、歷史資料和大量相關信息,“這讓我們能夠更好地了解客戶,并建立他們想要的用戶體驗。”這并不是結構化數據和非結構化數據之爭,而是,“我們的工程師現在可以以***的方式與數據打交道”。

  Williams表示,在過去一年中,eBay使用Hadoop完成了一些非常了不起的事情,包括對商品陳列、用戶體驗和用戶使用網站的方式的改善等。

  例如,eBay工作人員可以看到客戶什么時候開始搜索萬圣節和圣誕節產品。“我還能告訴你人們在尋找的產品,而在五年以前,我們根本不理解這些數據。”#p#

  制定策略須謹慎

  雖然Hadoop非常強大,但是也有一些注意事項。首先,“不要完全僅將目光放在一個供應商上”,因為這仍然是一個十分“動蕩”的市場,Forrester公司的Kobielus表示,“供應商們都正在快速發展,另一方面來看,這確實創建了一個充滿活力的生態系統。”

  Gartner研究所分析師Marcus Collins表示:“這主要取決于企業,獲取必要的專業知識來***化Hadoop的優勢。運用Hadoop需要一定水平的分析能力,而現在很多企業還不具備這樣的能力。你需要對員工進行培訓,并對分析能力進行投資,這將讓你充分利用這項技術的優勢。”


[[57883]] 

  eBay交易市場搜索平臺和體驗部門副總裁Hugh Williams

  另一個重要考慮因素:大多數企業將需要聘請Hadoop專家,而這種人才目前供不應求,或者需要培養內部專家。eBay的Williams表示:“我們安排了很多培訓,讓我們的工程師學習如何使用Hadoop和編寫代碼。你還需要對開發人員和項目經理進行培訓,讓他們也成為熟練的使用者。不要低估了這一點的作用。”

  如果將開源系統應用于關鍵任務應用程序,還要準備組織學習曲線。***讓你的管理層了解開源的優勢。

  Collins的另一個秘訣就是“密切參與”項目以確保按計劃進行,“不要將你的問題歸咎于Hadoop供應商,”他表示,“畢竟是你在運行Hadoop。”

  此外,Kobielus解釋說,Hadoop的***做法仍然在不斷發展中,所以***想辦法從Hadoop獲得一些短期優勢,而不要好高騖遠。隨著你的專業知識的增加,你會發現更多Hadoop的優勢。然而,早期使用者為建立系統和擴展集群而采用的方法范圍完全取決于董事會。#p#

  Hadoop只會錦上添花 不會喧賓奪主

  大多數客戶使用Hadoop添加到其他類型的軟件上,而不是取代其他軟件。例如,eBay仍然在使用關系型數據庫,并需要處理大量自定義(數據庫)工作,Williams說道:“在eBay,我們發現了使用多種技術來處理數據的價值。Hadoop對于某些目的而言,是一個非常好的選擇,而對于其他目的,其他技術更加適用。”

  例如,當涉及交易時,他表示,“當然應該使用關系型數據庫系統。我們的總體想法是靈活的選擇適合的技術,并不存在一個‘包治百病’的技術。”

  Concurrent公司同樣是如此。Hadoop并沒有取代該公司的傳統關系型數據庫,包括MySQL、PostgreSQL和Oracle。“這是一個綜合解決方案,”Lazzaro表示,“我們使用Hadoop來完成繁重的工作,例如大規模數據處理。然后我們會使用Hadoop內的Map/Reduce來創建匯總數據,這種數據能夠通過傳統RDBMS來查看。”

  關系型數據庫的發展趨勢是,當系統變得太大時,例如2.5億條記錄一天,數據庫就無法響應數據查詢。然而,他表示,“面對這么龐大的數據,Hadoop仍然不費吹灰之力。Hadoop可以存儲50億條數據,通過Map/Reduce我們可以創建數據匯總,并將其插入到標準RDBMS以提供快速查看。”

  在一般情況下,Williams表示,“我并不會過多考慮Hadoop的局限性,而是會考慮機會。你可以通過開源社區迅速找出解決任何問題的解決方案。雖然有些人對于Hadoop有著這樣那樣的抱怨,但它畢竟屬于新技術,就好像早在1993年或1994年的Linux一樣。”

  “我們確實看到獨特的技術挑戰,”Williams表示,包括架構數據中心、設計支持Hadoop的網絡和選擇正確的硬件。

  總體而言,Hadoop一直是eBay的良好戰略,Williams說道:“對于我們而言,Hadoop真的幫了大忙,我們的工程師都對它贊不絕口,它幫助我們成為真正的數據驅動型企業。”#p#

  相關鏈接

  企業級Hadoop供應商 vendors

  免費開源應用程序Apache Hadoop可供企業IT部門下載、使用和根據其需要進行改變。

  但對于很多企業用戶而言,Hadoop對支持和技術技能的需要在很大程度上掩蓋了這個免費DIY應用程序的光芒。

  而受支持的企業版本Hadoop則是更好更實際的選擇。

  以下是一些Hadoop主要供應商,這些供應商可以幫助你的公司開始享受Hadoop的優勢,有些供應商還提供內部部署軟件包,有些供應商還銷售云端Hadoop,還有剛剛出現的Hadoop數據庫設備,包括最近宣布合作的Oracle和Cloudera。

  ● Amazon提供的Amazon Elastic MapReduce,運行在Amazon的彈性云以及Simple Storage服務中的托管Hadoop框架

  ● Cloudera公司的Enterprise訂閱服務

  ● 使用Hadoop的Datameer Analytics Solution

  ● DataStax Enterprise Hadoop軟件

  ● EMC分公司Greenplum公司提供的Greenplum HD Enterprise-Ready Apache Hadoop

  ● Hortonworks數據平臺

  ● BigInsights,基于Hadoop的來自IBM的非結構化數據云服務

  ● Karmasphere Analyst, 使用Hadoop幫助生成數據的工具包

  ● MapR提供的企業級Hadoop軟件M5版本

  以上只是列出了一些提供企業級Hadoop產品和服務的供應商,隨著Hadoop在數據市場上關注度的提升,供應商的數量還將增加。#p#

  技術小貼士

  eBay的Williams為大家提供了以下秘訣:

  通過學習Hadoop的組織結構來學習如何有效管理Hadoop。 “如果你的企業有很多人在使用Hadoop集群,他們可能會嘗試一次性做很多相同的事情,”Williams表示,“這意味著他們可能會產生相同的中間數據,這是一種浪費。”

  他建議,一天運行一次通用數據查詢,并將結果保存在一個地方,讓需要的人可以使用,這樣做可以節省大量處理時間和相關資源,“仔細想想哪些數據集對于你的用戶是很有用的,然后創建這些數據集。”

  清理你的Hadoop集群是關鍵的維護工作。 “這真的非常重要,”Williams表示,“你可能需要運行大量Hadoop工作,創建大量數據,通常情況下,通過文件來處理工作的用戶會一走了之,這對于用戶很常見,如果你這樣做的話,你最終將會面對大量額外的Hadoop文件。”

  “所以你需要制定一個策略以保持Hadoop集群的整潔,這樣就不會超出磁盤空間。讓用戶清理出他們不需要的東西。如果你有一個大型Hadoop集群,定期清理是非常重要的。”

責任編輯:鳶瑋 來源: 網界網
相關推薦

2011-10-11 21:12:54

Ubuntu 11.1ARM

2009-06-04 12:37:16

主考官面試招聘

2016-05-17 15:08:42

Hadoop

2017-08-08 16:39:49

華為

2013-08-16 16:29:07

SDN

2013-10-15 10:18:17

2013-10-15 10:24:23

hadoop大數據

2010-03-10 17:52:30

Linux認證淺析

2014-05-12 17:00:41

安迅思全球瞭望

2016-12-20 18:21:29

Hadoop大數據面試

2010-05-24 14:59:29

Hadoop集群

2010-06-04 10:01:26

Hadoop安裝

2014-03-26 15:02:31

甲骨文云計算

2010-06-03 12:57:06

Hadoop

2014-02-14 15:30:18

HadoopYARN

2019-10-11 08:58:21

Hadoop開源

2017-10-19 15:34:52

Hadoop技術機制學習

2011-08-30 16:26:34

Hadoop

2010-06-03 15:39:47

Hadoop配置

2014-06-30 15:40:41

GCDN
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费一级欧美在线观看视频 | 久久久久黄色 | 精品九九九 | 免费看黄色视屏 | 国产一区二区自拍 | 日韩电影中文字幕 | 欧美性a视频 | 欧美日韩在线一区二区三区 | 久久亚洲91 | 国产精品一二三区 | 看黄在线 | 九九热视频这里只有精品 | 国产精品美女在线观看 | 视频三区 | 天天射影院| 欧美三级三级三级爽爽爽 | h视频在线观看免费 | 日韩欧美字幕 | 一级黄色大片 | 日韩国产中文字幕 | 久久免费观看视频 | 先锋资源在线 | www.久草.com | 久久精品91久久久久久再现 | 激情久久av一区av二区av三区 | 亚洲一区二区免费电影 | 国产成人免费视频网站高清观看视频 | 一级黄a视频 | 久久大| 亚洲一区二区三区免费在线观看 | 精品国产乱码久久久久久蜜柚 | 精品毛片在线观看 | 欧美区精品 | 亚洲人在线 | 日韩精品久久久久 | 日韩午夜网站 | 亚洲精品一区在线 | 国产精品美女久久久久久免费 | 精品一区二区三区在线观看国产 | 日韩精品一区二区三区 | 日韩视频在线免费观看 |