成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

頭條面試官問:100TB文件上傳該怎么優化性能?

開發 架構
這篇文章,我們來看看,Hadoop的HDFS分布式文件系統的文件上傳的性能優化。

一、寫在前面

上一篇文章,我們聊了一下Hadoop中的NameNode里的edits log寫機制。

主要分析了edits log寫入磁盤和網絡的時候,是如何通過分段加鎖以及雙緩沖的機制,大幅度提升了多線程并發寫edits log的吞吐量,從而支持高并發的訪問。

如果沒看那篇文章的同學,可以回看一下:??放幾十億數據的系統還能抗每秒上萬并發,牛不牛???

這篇文章,我們來看看,Hadoop的HDFS分布式文件系統的文件上傳的性能優化。

首先,我們還是通過一張圖來回顧一下文件上傳的大概的原理。

?由上圖所示,文件上傳的原理,其實說出來也簡單。

比如有個TB級的大文件,太大了,HDFS客戶端會給拆成很多block,一個block就是128MB。

這個HDFS客戶端你可以理解為是云盤系統、日志采集系統之類的東西。

比如有人上傳一個1TB的大文件到網盤,或者是上傳個1TB的大日志文件。

然后,HDFS客戶端把一個一個的block上傳到第一個DataNode

第一個DataNode會把這個block復制一份,做一個副本發送給第二個DataNode。

第二個DataNode發送一個block副本到第三個DataNode。

所以你會發現,一個block有3個副本,分布在三臺機器上。任何一臺機器宕機,數據是不會丟失的。

最后,一個TB級大文件就被拆散成了N多個MB級的小文件存放在很多臺機器上了,這不就是分布式存儲么??

二、原始的文件上傳方案

今天要討論的問題,就是那個HDFS客戶端上傳TB級大文件的時候,到底是怎么上傳呢?

我們先來考慮一下,如果用一個比較原始的方式來上傳,應該怎么做?

大概能想到的是下面這個圖里的樣子。

很多java的初學者,估計都知道這樣來上傳文件,其實無非就是不停的從本地磁盤文件用輸入流讀取數據,讀到一點,就立馬通過網絡的輸出流寫到DataNode里去。

上面這種流程圖的代碼,估計剛畢業的同學都可以立馬寫出來。因為對文件的輸入流最多就是個FileInputStream。

?而對DataNode的輸出流,最多就是個Socket返回的OutputStream。

然后中間找一個小的內存byte[]數組,進行流對拷就行了,從本地文件讀一點數據,就給DataNode發一點數據。

但是如果你要這么弄,那性能真是極其的低下了,網絡通信講究的是適當頻率,每次batch批量發送,你得讀一大批數據,通過網絡通信發一批數據。

不能說讀一點點數據,就立馬來一次網絡通信,就發出去這一點點的數據。

如果按照上面這種原始的方式,絕對會導致網絡通信效率極其低下,大文件上傳性能很差。

為什么這么說呢?

相當于你可能剛讀出來幾百個字節的數據,立馬就寫網絡,卡頓個比如幾百毫秒。

然后再讀下一批幾百個字節的數據,再寫網絡卡頓個幾百毫秒,這個性能很差,在工業級的大規模分布式系統中,是無法容忍的。?

三、HDFS對大文件上傳的性能優化

好,看完了原始的文件上傳,那么我們來看看,Hadoop中的大文件上傳是如何優化性能的呢?一起來看看下面那張圖。

首先你需要自己創建一個針對本地TB級磁盤文件的輸入流。

然后讀到數據之后立馬寫入HDFS提供的FSDataOutputStream輸出流。

這個FSDataOutputStream輸出流在干啥?

大家覺得他會天真的立馬把數據通過網絡傳輸寫給DataNode嗎?

答案當然是否定的了!這么干的話,不就跟之前的那種方式一樣了!

1、 Chunk緩沖機制

首先,數據會被寫入一個chunk緩沖數組,這個chunk是一個512字節大小的數據片段,你可以這么來理解。

然后這個緩沖數組可以容納多個chunk大小的數據在里面緩沖。

光是這個緩沖,首先就可以讓客戶端快速的寫入數據了,不至于說幾百字節就要進行一次網絡傳輸,想一想,是不是這樣?

2、 Packet數據包機制

接著,當chunk緩沖數組都寫滿了之后,就會把這個chunk緩沖數組進行一下chunk切割,切割為一個一個的chunk,一個chunk是一個數據片段。

然后多個chunk會直接一次性寫入另外一個內存緩沖數據結構,就是Packet數據包

一個Packet數據包,設計為可以容納127個chunk,大小大致為64mb。所以說大量的chunk會不斷的寫入Packet數據包的內存緩沖中。

通過這個Packet數據包機制的設計,又可以在內存中容納大量的數據,進一步避免了頻繁的網絡傳輸影響性能。

3、內存隊列異步發送機制

當一個Packet被塞滿了chunk之后,就會將這個Packet放入一個內存隊列來進行排隊。

然后有一個DataStreamer線程會不斷的獲取隊列中的Packet數據包,通過網絡傳輸直接寫一個Packet數據包給DataNode。

如果一個Block默認是128mb的話,那么一個Block默認會對應兩個Packet數據包,每個Packet數據包是64MB。

也就是說,傳送兩個Packet數據包給DataNode之后,就會發一個通知說,一個Block的數據都傳輸完畢。

這樣DataNode就知道自己收到一個Block了,里面包含了人家發送過來的兩個Packet數據包。

四、總結

OK,大家看完了上面的那個圖以及Hadoop采取的大文件上傳機制,是不是感覺設計的很巧妙?

說白了,工業級的大規模分布式系統,都不會采取特別簡單的代碼和模式,那樣性能很低下。

這里都有大量的并發優化、網絡IO優化、內存優化、磁盤讀寫優化的架構設計、生產方案在里面。

所以大家觀察上面那個圖,HDFS客戶端可以快速的將tb級大文件的數據讀出來,然后快速的交給HDFS的輸出流寫入內存。

?基于內存里的chunk緩沖機制、packet數據包機制、內存隊列異步發送機制。絕對不會有任何網絡傳輸的卡頓,導致大文件的上傳速度變慢。

反而通過上述幾種機制,可以上百倍的提升一個TB級大文件的上傳性能。?

責任編輯:姜華 來源: 今日頭條
相關推薦

2021-03-24 10:25:24

優化VUE性能

2017-09-25 10:27:37

阿里云POLARDB數據庫

2017-09-22 09:22:55

阿里云POLARDB實現

2022-08-12 22:53:32

HadoopHDFS分布式

2021-11-08 09:18:01

CAS面試場景

2021-12-25 22:31:10

MarkWord面試synchronize

2018-03-27 15:10:35

機械盤無限壽命

2021-08-02 08:34:20

React性能優化

2020-12-18 09:36:01

JSONP跨域面試官

2021-12-16 18:38:13

面試Synchronize

2010-08-23 15:06:52

發問

2021-01-06 05:36:25

拉鏈表數倉數據

2024-09-05 21:24:02

數據庫查詢MySQLlimit

2022-01-05 09:55:26

asynawait前端

2022-10-10 12:31:37

服務器性能

2021-08-05 12:41:57

高并發性能CAS

2024-03-08 07:53:19

LockMonitor線程

2019-11-19 16:10:24

面試官Java編程語言

2020-08-03 07:04:54

測試面試官應用程序

2025-03-26 01:25:00

MySQL優化事務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区不卡视频 | 日韩在线小视频 | 国产一区二区三区在线看 | 91精品国产综合久久久动漫日韩 | 国产色 | 久久99久久 | 日韩一区二区福利视频 | 久久国产精品久久久久 | 91亚洲免费| 色婷婷综合成人av | 免费观看一级毛片 | 91精品国产欧美一区二区成人 | 国产精品成人一区二区 | 中文字幕亚洲精品 | 高清不卡毛片 | 亚洲久久一区 | 亚洲精品视频在线观看免费 | www天天操 | 国产在线精品一区二区 | 欧美成人精品一区二区男人看 | 国产欧美日韩久久久 | 国产精品国产精品国产专区不卡 | 久久99这里只有精品 | 精品国产乱码久久久久久闺蜜 | 91看片在线观看 | 精品一区二区三区免费视频 | www.99re5.com| 国产精品久久久久久久久久了 | 午夜在线免费观看 | 九七午夜剧场福利写真 | 一级a性色生活片久久毛片波多野 | 亚洲日本国产 | 欧美精品成人一区二区三区四区 | 蜜桃视频在线观看免费视频网站www | 黑人中文字幕一区二区三区 | 男人久久天堂 | 欧美精品一区二区三区四区 在线 | 日韩视频免费看 | 一级全黄视频 | 久久久久国产一区二区三区 | 日本爱爱|