利用SQOOP將數據從數據庫導入到HDFS

作者：王森豐 2016-12-21 14:14:51

本文程序導入到HDFS中的數據是文本格式，所以在創建Hive外部表的時候，不需要指定文件的格式為RCFile,而使用默認的TextFile即可。數據間的分隔符為'\001'.如果多次導入同一個表中的數據，數據以append的形式插入到HDFS目錄中。

基本使用

如下面這個shell腳本：

#Oracle的連接字符串，其中包含了Oracle的地址，SID,和端口號 
CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2 
#使用的用戶名 
ORACLENAME=kkaa 
#使用的密碼 
ORACLEPASSWORD=kkaa123 
#需要從Oracle中導入的表名 
oralceTableName=tt 
#需要從Oracle中導入的表中的字段名 
columns=AREA_ID,TEAM_NAME 
#將Oracle中的數據導入到HDFS后的存放路徑 
hdfsPath=apps/as/hive/$oralceTableName 
#執行導入邏輯。將Oracle中的數據導入到HDFS中 
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath  --num-mappers 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'

執行這個腳本之后，導入程序就完成了。

接下來，用戶可以自己創建外部表，將外部表的路徑和HDFS中存放Oracle數據的路徑對應上即可。

注意：這個程序導入到HDFS中的數據是文本格式，所以在創建Hive外部表的時候，不需要指定文件的格式為RCFile,而使用默認的TextFile即可。數據間的分隔符為'\001'.如果多次導入同一個表中的數據，數據以append的形式插入到HDFS目錄中。

并行導入

假設有這樣這個sqoop命令，需要將Oracle中的數據導入到HDFS中：

sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath  --m 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'  --where "data_desc='2011-02-26'"

請注意，在這個命令中，有一個參數"-m",代表的含義是使用多少個并行，這個參數的值是1,說明沒有開啟并行功能。

現在，我們可以將"-m"參數的值調大，使用并行導入的功能，如下面這個命令：

sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath  --m 4 --table $oralceTableName --columns $columns --fields-terminated-by '\001'  --where "data_desc='2011-02-26'"

一般來說，Sqoop就會開啟4個進程，同時進行數據的導入操作。

但是，如果從Oracle中導入的表沒有主鍵，那么會出現如下的錯誤提示：

ERROR tool.ImportTool: Error during import: No primary key could be found for table creater_user.popt_cas_redirect_his. Please specify one with --split-by or perform a sequential import with '-m 1'.

在這種情況下，為了更好的使用Sqoop的并行導入功能，我們就需要從原理上理解Sqoop并行導入的實現機制。

如果需要并行導入的Oracle表的主鍵是id,并行的數量是4,那么Sqoop首先會執行如下一個查詢：

select max（id） as max, select min（id） as min from table [where 如果指定了where子句];

通過這個查詢，獲取到需要拆分字段(id)的***值和最小值，假設分別是1和1000.

然后，Sqoop會根據需要并行導入的數量，進行拆分查詢，比如上面的這個例子，并行導入將拆分為如下4條SQL同時執行：

select * from table where 0 <= id < 250; 
select * from table where 250 <= id < 500; 
select * from table where 500 <= id < 750; 
select * from table where 750 <= id < 1000;

注意，這個拆分的字段需要是整數。

從上面的例子可以看出，如果需要導入的表沒有主鍵，我們應該如何手動選取一個合適的拆分字段，以及選擇合適的并行數。

再舉一個實際的例子來說明：

我們要從Oracle中導入creater_user.popt_cas_redirect_his.

這個表沒有主鍵，所以我們需要手動選取一個合適的拆分字段。

首先看看這個表都有哪些字段：

然后，我假設ds_name字段是一個可以選取的拆分字段，然后執行下面的sql去驗證我的想法：

select min（ds_name）， max（ds_name） from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'

發現結果不理想，min和max的值都是相等的。所以這個字段不合適作為拆分字段。

再測試一下另一個字段：CLIENTIP

select min（CLIENTIP）， max（CLIENTIP） from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'

這個結果還是不錯的。所以我們使用CLIENTIP字段作為拆分字段。

所以，我們使用如下命令并行導入：

sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath  --m 12 --split-by CLIENTIP --table $oralceTableName --columns $columns --fields-terminated-by '\001'  --where "data_desc='2011-02-26'"

這次執行這個命令，可以看到，消耗的時間為：20mins, 35sec,導入了33,222,896條數據。

另外，如果覺得這種拆分不能很好滿足我們的需求，可以同時執行多個Sqoop命令，然后在where的參數后面指定拆分的規則。如：

sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath  --m 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'  --where "data_desc='2011-02-26' logtime<10:00:00" 
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath  --m 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'  --where "data_desc='2011-02-26' logtime>=10:00:00"

從而達到并行導入的目的。

【本文為51CTO專欄作者“王森豐”的原創稿件，轉載請注明出處】

責任編輯：龐桂玉來源：神算子

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

利用SQOOP將數據從數據庫導入到HDFS