成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據同步工具DataX與Sqoop之比較

大數據
DataX與Sqoop同樣是大數據異構環境數據同步工具,二者有什么差別呢?下面我們就對兩者進行更深入的了解。

DataX是一個在異構的數據庫/文件系統之間高速交換數據的工具,實現了在任意的數據處理系統(RDBMS/Hdfs/Local filesystem)之間的數據交換,由淘寶數據平臺部門完成。Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。同樣是大數據異構環境數據同步工具,二者有什么差別呢?本文轉自Dean的博客。

從接觸DataX起就有一個疑問,它和Sqoop到底有什么區別,昨天部署好了DataX和Sqoop,就可以對兩者進行更深入的了解了。

兩者從原理上看有點相似,都是解決異構環境的數據交換問題,都支持oracle,mysql,hdfs,hive的互相交換,對于不同數據庫的支持都是插件式的,對于新增的數據源類型,只要新開發一個插件就好了,但是只細看兩者的架構圖,很快就會發現明顯的不同。

DataX架構圖

 

 

 

大數據同步工具DataX與Sqoop之比較

 

Job: 一道數據同步作業

Splitter: 作業切分模塊,將一個大任務與分解成多個可以并發的小任務.

Sub-job: 數據同步作業切分后的小任務

Reader(Loader): 數據讀入模塊,負責運行切分后的小任務,將數據從源頭裝載入DataX

Storage: Reader和Writer通過Storage交換數據

Writer(Dumper): 數據寫出模塊,負責將數據從DataX導入至目的數據地

Sqoop架構圖

大數據同步工具DataX與Sqoop之比較

大數據同步工具DataX與Sqoop之比較

DataX 直接在運行DataX的機器上進行數據的抽取及加載。

而Sqoop充分里面了map-reduce的計算框架。Sqoop根據輸入條件,生成一個map-reduce的作業,在Hadoop的框架中運行。

從理論上講,用map-reduce框架同時在多個節點上進行import應該會比從單節點上運行多個并行導入效率高。而實際的測試中也是如此,測試一個Oracle to hdfs的作業,DataX上只能看到運行DataX上的機器的數據庫連接,而Sqoop運行時,4臺task-tracker全部產生一個數據庫連接。調起的Sqoop作業的機器也會產生一個數據庫連接,應為需要讀取數據表的一些元數據信息,數據量等,做分區。

Sqoop現在作為Apache的***項目,如果要我從DataX和Sqoop中間選擇的話,我想我還是會選擇Sqoop。而且Sqoop還有很多第三方的插件。早上使用了Quest開發的OraOop插件,確實像quest說的一樣,速度有著大幅的提升,Quest在數據庫方面的經驗,確實比旁人深厚。

 

 

大數據同步工具DataX與Sqoop之比較

 

 

大數據同步工具DataX與Sqoop之比較

 

在我的測試環境上,一臺只有700m內存的,IO低下的oracle數據庫,百兆的網絡,使用Quest的Sqoop插件在4個并行度的情況下,導出到HDFS速度有5MB/s ,這已經讓我很滿意了。相比使用原生Sqoop的2.8MB/s快了將近一倍,sqoop又比DataX的760KB/s快了兩倍。

另外一點Sqoop采用命令行的方式調用,比如容易與我們的現有的調度監控方案相結合,DataX采用xml 配置文件的方式,在開發運維上還是有點不方便。

附圖1.Sqoop with Quest oracle connector

大數據同步工具DataX與Sqoop之比較

大數據同步工具DataX與Sqoop之比較

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2009-08-12 17:33:25

繼承與擴展方法

2017-05-02 08:40:36

機器學習預處理整理

2017-04-29 10:16:14

機器學習數據清洗數據整理

2021-12-23 14:09:43

數據結構算法字符串

2009-02-11 13:38:00

軟件工程師程序員職業

2021-05-17 08:00:00

數據庫工具Flyway

2011-11-08 16:32:24

LinuxFreeBSDTCP

2024-02-04 08:05:48

DataX阿里云開源

2011-11-07 10:49:16

IPsec VPNMPLS VPN

2017-02-22 07:22:51

2013-03-20 15:49:28

大數據

2020-01-17 13:33:42

大數據分析師大數據工程師

2011-07-01 15:57:06

Gartner存儲云計算

2022-05-06 16:15:29

SisenseTableauBI 工具

2016-02-22 10:10:48

SqoopSQLNoSQL

2010-06-10 13:41:43

RoseUML建模工具

2016-09-23 20:51:28

大數據

2013-01-07 10:09:56

大數據數據民主

2020-02-16 15:20:18

存儲類型比較

2021-06-10 19:10:32

大數據大數據應用大數據技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品高潮呻吟久久av黑人 | 亚洲狠狠丁香婷婷综合久久久 | 婷婷丁香在线视频 | 日韩成人影院在线观看 | 成人精品在线观看 | 91精品在线看 | 黄色高清视频 | 伊人二区| 国产亚洲一区二区三区在线观看 | 91在线看 | 一区二区国产在线观看 | 一区二区三区精品 | 欧美aaa级 | 欧美韩一区二区 | 蜜臀网| www.色53色.com | 精品99在线| 一级片网址 | 国产精品久久久久久福利一牛影视 | 精品日韩一区二区 | 久久a久久| 精品视频在线一区 | 国产日韩欧美一区二区 | 欧美日韩在线一区二区 | 中文字幕免费 | 男女羞羞视频网站 | 婷婷色在线 | 91.xxx.高清在线 | av黄色在线 | 91素人| 亚洲人人 | 91看片网 | 黄色av网站在线观看 | 欧美黄色一级毛片 | 亚洲精品一区二区 | 国产日韩欧美 | 免费精品在线视频 | 免费观看成人性生生活片 | 国产三级电影网站 | 中文字幕99 | 视频二区 |