成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何用Hadoop搭建大型分布式應用

系統 Linux 分布式 Hadoop
在去年Techonomy會議上參加討論時,谷歌CEO Eric Schmidt引用一個驚人的事實指出,我們現在每兩天創造的信息和2003年以來整個歷史上所創建的信息一樣多。信息泛濫帶來了一系列的技術突破,這讓企業的數據存儲擴展到數千億字節甚至是數拍字節。

Hadoop一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。在去年Techonomy會議上參加討論時,谷歌CEO Eric Schmidt引用一個驚人的事實指出,我們現在每兩天創造的信息和2003年以來整個歷史上所創建的信息一樣多。信息泛濫帶來了一系列的技術突破,這讓企業的數據存儲擴展到數千億字節甚至是數拍字節。

谷歌在此領域的貢獻是尤其值得注意,包括它在MapReduce上的工作,它是一種大型分布式數據處理的方法,谷歌采用此方法來記錄位于索引資源(映射這些數據)收藏里的關鍵字或短語,接著再把這些位置的記錄和清單返回給用戶(將映射數據減少到緊密相關的結果)。映射和減少操作可以涵蓋模式識別、圖解分析、風險管理和預測模式。

雖然谷歌的MapReduce安裝是專有的,還存在MapReduce概念的很多開源安裝,包括Apache Hadoop。事實上,Hadoop已經是分布式數據處理的實際解決方案了,數十個國際公司已經從執行和開發兩個方面大力投資該項目。Adobe、Amazon、AOL、Baidu、EBay、Facebook、Hulu、IBM、Last.fm、LinkedIn、Ning、Twitter和Yahoo等已成為用戶,很多大學、醫院和研究中心也都成為用戶,采用并不受互聯網重要人物的限制。

Hadoop項目介紹

和Apache軟件基金會(ASF)的很多項目一樣,Hadoop是一個涵蓋性術語,它分配基金會的全部措施來產生“可信、可擴展且分布式計算的開源軟件”。現在的措施由四個子項目組成,包括:

Hadoop Common:Hadoop Common形成Hadoop項目的核心,通過緊跟著的同胞項目提供所需的“管道裝置”。

HDFS:Hadoop分布式文件系統(HDFS)是遍及計算集群負責復制和分配數據的存儲系統。

MapReduce:MapReduce是開發人員用來編寫應用的軟件架構,這些應用處理那些存儲在HDFS中的數據。

ZooKeeper:ZooKeeper負責協調配置數據、進程同步和其它所有被分配應用有效運作所需的網絡相關服務。因此,雖然你確實會以單一檔案文件的形式下載Hadoop,記住,你正在下載的實際上是四個子項目,它們齊心協力來實施映射和歸算處理。

用Hadoop做實驗

盡管Hadoop試圖解決的問題本質復雜,從運用這個項目開始會非常容易。作為一個例子,我認為用Hadoop來完成我“用PHP簡化貝寶”一書中的詞頻率分析會很有趣。這個任務會仔細查看整本書(長度大概在130頁左右),并且產生一個所有書中出現詞語的分組列表,連同其中每個詞出現在頻率。

安裝Hadoop之后,我用Calibre把我的書從PDF轉成文本文檔。Hadoop wiki還包含相似的指令,但由于比較近期的Hadoop配置過程改變,以前的資源包含略有更新的指令。

接下來我用下面的命令從臨時位置把這本書復制到Hadoop分布式文件系統:

  1. $ ./bin/hadoop dfs -copyFromLocal /tmp/easypaypalwithphp/ easypaypalwithphp 

你可以通過運用以下命令確認復制成功:

  1. $ ./bin/hadoop dfs -ls  
  2. rwxr-xr-x - hadoop supergroup 0 2011-01-04 12:48 /user/hadoop/easypaypalwithphp 

緊接著,運用和Hadoop一起打包的示例WordCount腳本來執行詞頻率分析:

  1. $ ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount \  
  2. > easypaypalwithphp easypaypalwithphp-output ...  
  3. 11/01/04 12:51:38 INFO mapreduce.Job:  map 0% reduce 0%  
  4. 11/01/04 12:51:48 INFO mapreduce.Job:  map 100% reduce 0%  
  5. 11/01/04 12:51:57 INFO mapreduce.Job:  map 100% reduce 100%  
  6. 11/01/04 12:51:59 INFO mapreduce.Job: Job complete: job_201101041237_0002  
  7. 11/01/04 12:51:59 INFO mapreduce.Job: Counters: 33  
  8.         FileInputFormatCounters  
  9.                BYTES_READ=274440 

***,你可以用以下命令查看輸出內容:

  1. $ ./bin/hadoop dfs -cat easypaypalwithphp-output/part-r-00000  
  2. ...  
  3. Next 21  
  4. Next, 8  
  5. No    5  
  6. NoAutoBill     1  
  7. Norwegian      1  
  8. Not     2  
  9. Notably,       2  
  10. Note    5  
  11. Notice  6  
  12. Notification   13  
  13. ... 

示例WordCount頻率分析腳本非常基本,對書中文本里的每一列分配同等的重量,包括代碼。但是為了解析例如DocBook格式的文件并忽略代碼而修改腳本則會是很煩瑣的事情。無論如何,考慮一下你想要創建谷歌全球書籍詞頻統計器一類服務的情況,它查看超過520萬本書的關鍵詞語。

小結:

如何用Hadoop搭建大型分布式應用的內容介紹完了,希望通過Hadoop搭建分布式應用內容的學習能對你有所幫助。

原文鏈接:http://www.searchsv.com.cn/showcontent_44761.htm

責任編輯:程站 來源: TechTarget中國
相關推薦

2012-05-21 10:19:31

Hadoop

2012-02-23 09:59:05

Hadoop分布式應用

2017-08-10 10:17:32

Hadoop分布式搭建

2018-12-14 10:06:22

緩存分布式系統

2010-07-20 08:30:00

Java分布式應用

2022-06-14 10:47:00

分布式事務數據

2017-10-25 18:25:40

Hadoop偽分布式環境部署

2012-09-19 14:09:20

Hadoop開源

2017-05-08 11:53:21

2012-05-21 16:28:29

LinuxHadoop

2013-06-08 14:34:42

Hadoop 2.0

2017-12-07 15:24:10

Hadoop大數據服務器

2019-08-05 07:58:01

分布式架構系統

2014-07-15 11:15:44

hadoop分布式部署

2019-09-26 15:43:52

Hadoop集群防火墻

2017-02-28 09:48:30

2022-08-11 18:27:50

面試Redis分布式鎖

2023-03-06 08:14:48

MySQLRedis場景

2023-04-26 08:01:09

分布式編譯系統

2010-06-03 19:46:44

Hadoop
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一区二区三区在线播放 | 国产一区不卡 | 亚洲精品视频在线播放 | 中文字幕亚洲区一区二 | 精品国产免费人成在线观看 | 91成人免费看片 | 99视频精品 | 午夜爽爽爽男女免费观看 | 国产一二三区在线 | 亚洲手机在线 | 国产亚洲一区二区三区 | 亚洲va欧美va天堂v国产综合 | 中文av字幕 | 一级无毛片 | 久久精品国产99国产精品 | 亚洲一区在线播放 | 成人午夜免费在线视频 | 91社区在线观看播放 | 久久久久久成人网 | 日韩欧美手机在线 | 成人激情视频免费在线观看 | 国产精品久久久久久亚洲调教 | 欧美精品久久久 | 秋霞电影院午夜伦 | 久久久国产亚洲精品 | 99久久久久| 一区二区精品在线 | jlzzjlzz欧美大全 | 亚洲综合激情 | 福利视频一区 | 日日骚视频 | av看片网站 | 国产精品明星裸体写真集 | 欧美精产国品一二三区 | 午夜影晥 | 九九九国产| 中文字幕精品一区二区三区精品 | 欧美精品一区二区三区蜜臀 | 日本中文字幕一区 | 国产免费一区二区三区 | 久久精品 |