成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

云上運行 Hadoop 會面臨哪些挑戰

大數據 Hadoop
在云上運行Hadoop,很多人擔心性能。因為一提到虛擬化就會有人想到有成本,往往得出有偏見的結論-在云上運行肯定比物理機器上運行性能差。確實,在云上運行Hadoop對平臺方還是面臨一些挑戰的,下面主要講述這些挑戰及平臺方怎么解決的。

前言

在云上運行Hadoop,很多人擔心性能。因為一提到虛擬化就會有人想到有成本,往往得出有偏見的結論-在云上運行肯定比物理機器上運行性能差。如果單獨把10臺物理機虛擬化跑Hadoop,這肯定是有部分性能的開銷的。但是如果在公共云上,情況就不是這樣了。因為公共云虛擬化的開銷最終是由平臺方來承擔的,其一是平臺方采購機器有規模優勢,其二平臺方可以在保證虛擬機性能的情況超賣部分資源。

平臺賣給用戶8core32g的虛擬機就保證有這個規格的能力的。結合云上的彈性優勢,企業的總體成本是會下降的。

在云上運行Hadoop對平臺方還是面臨一些挑戰的,下面主要講述這些挑戰及平臺方怎么解決的。

[[167090]]

云上Hadoop的挑戰-Shuffle

Shuffle分為Push模式,Pull模式。Push模式就是直接通過網絡發送到下一個節點,比如:storm、flink。Pull模式就是數據先存儲在本地,再啟動下一個節點拉取數據,比如:Hadoop MR、Spark。

在push模式下,主要瓶頸點是網絡。在一般的云環境中,網絡跟線下沒有太多的區別,可以滿足需求。

在pull模式下,主要瓶頸點是磁盤。在云環境中,會提供本地磁盤或者用SDD加速的方案。如下:

 

另外:

根據spark社區的報告,在機器學習等很多場景下,瓶頸點現在是CPU了

云上Hadoop的挑戰-數據本地化

數據本地化含義是分析時,把計算移動到數據節點的。如果計算存儲分離,則存在數據放在OSS中,需要從OSS遠程拉取數據。一般情況下,認為這樣會有性能問題。

 

當前,網絡的帶寬發展非??欤?/p>

 

從09年到16年對比,大約帶寬提升100倍左右,讓大家影響深刻的是家庭帶寬從4Mbps到了100Mbps了,4G也流行起來了,筆者現在基本不在電腦上存放電影,直接在線看的?,F在很多機房在做100Gbps點到點的帶寬。磁盤本身并沒有太大的吞吐量的提升。還可以采取壓縮算法把存儲量減少。在 ETL場景下,往往只需要晚上運行數個小時,對性能本身不是太敏感;機器學習場景需要內存緩存數據;流式計算本身數據在移動的。

整體來講,會隨著帶寬的增加、業務場景的實時化、多元化,數據本地化不是必須的。

云上Hadoop的挑戰-自動化運維

 

作業的管理、任務編排、監控、報警這些基本功能都還好。Hadoop本身非常復雜,如果Hadoop本身出現點什么問題,則會影響作業的運行。

這些問題包括但是不僅限于:

  • Master掛
  • 各種日志清理等
  • 節點掛掉,自動補回
  • Datanode掉線處理
  • NodeManager掉線處理
  • Job運行監控報警
  • 負載過高監控報警
  • 節點數據均衡
  • 單節點擴容
  • 版本自動升級
  • 重要數據備份
  • Hbase等指標監控報警
  • Storm等指標監控報警

我們需要自動化診斷這些問題并在用戶、平臺的共同參與下把這些問題解決。

云上Hadoop的挑戰-專家建議

是否需要擴容

Hive SQL,可以給SQL評分,給出***寫法

分析存儲,比如:指明是否需要壓縮;小文件是否過多,是否需要合并;訪問記錄分析,是否可以把冷數據歸檔處理

分析運行時各種JOB統計信息,如:Job的map時間是否過小,運行時reduce是否數據傾斜,單個job是否有一些參數調整

這個主要是針對存儲、作業調優的,優化性能之類的。在一般企業內部是沒有這套系統的。云上可以做成一套這樣的系統,幫助廣大的中小企業

責任編輯:Ophira 來源: 云棲博客
相關推薦

2021-08-05 10:07:21

云計算云供應商云服務

2010-12-27 14:47:23

VMware云計算

2023-06-27 17:21:08

2023-10-08 07:00:12

2019-08-05 11:25:53

數據管理物聯網安全

2018-10-26 11:16:37

IT運維數據中心云計算

2022-07-25 16:53:30

物聯網云計算數字化轉型

2020-12-24 10:43:33

比特幣黃金美元

2020-02-25 15:37:31

數據安全數據存儲

2018-11-22 12:50:41

區塊鏈比特幣數字貨幣

2021-12-02 14:25:06

區塊鏈加密貨幣技術

2022-08-31 10:57:48

物聯網安全網絡攻擊

2018-07-25 06:15:48

云安全網絡安全云計算啊

2020-02-11 10:24:40

云遷移云計算

2019-04-22 13:45:12

云計算IT自動化公共云

2022-02-14 18:31:21

云計算云安全上云

2023-08-10 07:04:13

2017-10-18 11:48:31

數據科學機器學習數據處理

2013-10-22 09:26:26

云安全云安全部署

2025-05-12 09:00:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄频视频 | 国产在线a视频 | 亚洲一区电影 | 精品久久九九 | 国产成人午夜精品影院游乐网 | 日韩一区二区福利视频 | 81精品国产乱码久久久久久 | 365夜爽爽欧美性午夜免费视频 | 一本一道久久a久久精品蜜桃 | 玖玖在线免费视频 | 爱操影视 | 中文字幕在线一区二区三区 | 日韩成人高清 | 久久久久国产精品一区二区 | 国产福利91精品一区二区三区 | 国产在线精品一区二区三区 | 久久久新视频 | 在线播放亚洲 | www日韩| 国产资源一区二区三区 | 欧美在线综合 | 国产成人99久久亚洲综合精品 | 久久69精品久久久久久久电影好 | 人干人操 | 午夜久久久久久久久久一区二区 | 99精品电影 | 成人免费淫片aa视频免费 | 日本不卡一区 | 人人精品| 天天曰夜夜 | 久草在线| 国产大片黄色 | 日日草夜夜草 | 一区二区三区国产 | 国产综合在线视频 | 色综合99 | 91精品久久久久久久久久 | 日韩欧美在线免费观看视频 | 亚洲一区 | 国产精品.xx视频.xxtv | 日韩视频―中文字幕 |