導入數據到HDFS · 大數據

[TOC] # 導入表數據到 HDFS 下面的命令用于從MySQL數據庫服務器中的emp表導入HDFS `--m` 表示跑這個任務需要多少個map ~~~ sqoop import \ --connect jdbc:mysql://localhost:3306/userdb \ --username root \ --password root \ --table emp --m 1 ~~~ 如果要指定這樣`--m 2`的話,就需要指定個字段了 `--split-by id`比如指定id,按照那個字段切分 ~~~ [root@master ~]# sqoop import \ > --connect jdbc:mysql://192.168.33.3:3306/app \ > --username root \ > --password root \ > --split-by id \ > --table emp_add --m 2 ~~~ 如果成功執行，那么會得到下面的輸出。 ~~~ 14/12/22 15:24:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5 14/12/22 15:24:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset. INFO orm.CompilationManager: Writing jar file: /tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7/emp.jar ----------------------------------------------------- O mapreduce.Job: map 0% reduce 0% 14/12/22 15:28:08 INFO mapreduce.Job: map 100% reduce 0% 14/12/22 15:28:16 INFO mapreduce.Job: Job job_1419242001831_0001 completed successfully ----------------------------------------------------- ----------------------------------------------------- 14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Transferred 145 bytes in 177.5849 seconds (0.8165 bytes/sec) 14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Retrieved 5 records. ~~~ 為了驗證在HDFS導入的數據，請使用以下命令查看導入的數據默認在`/user/root`下面表名這個文件夾 ~~~ $ $HADOOP_HOME/bin/hadoop fs -cat /user/hadoop/emp/part-m-00000 ~~~ emp表的數據和字段之間用逗號(,)表示。 ~~~ 1201, gopal, manager, 50000, TP 1202, manisha, preader, 50000, TP 1203, kalil, php dev, 30000, AC 1204, prasanth, php dev, 30000, AC 1205, kranthi, admin, 20000, TP ~~~ # 導入到HDFS指定目錄在導入表數據到HDFS使用Sqoop導入工具，我們可以指定目標目錄。以下是指定目標目錄選項的Sqoop導入命令的語法。 ~~~ --target-dir <new or exist directory in HDFS> ~~~ 下面的命令是用來導入emp_add表數據到'/queryresult'目錄。 ~~~ sqoop import \ --connect jdbc:mysql://localhost:3306/test \ --username root \ --password root123 \ --target-dir /queryresult \ --table emp_add--m 1 ~~~ 下面的命令是用來驗證 /queryresult?目錄中 emp_add表導入的數據形式。 ~~~ $HADOOP_HOME/bin/hadoop fs -cat /queryresult/part-m-* ~~~ 它會用逗號（,）分隔emp_add表的數據和字段。 ~~~ 1201, 288A, vgiri, jublee 1202, 108I, aoc, sec-bad 1203, 144Z, pgutta, hyd 1204, 78B, oldcity, sec-bad 1205, 720C, hitech, sec-bad ~~~ 然后看運行命令的地方,下面生成了幾個.java文件他是把這些命令打包成jar包運行的默認目錄是`/user/${user.name}/${tablename}`，可以通過`--target-dir`設置hdfs上的目標目錄。如果想要將整個數據庫中的表全部導入到hdfs上，可以使用`import-all-tables`命令。 ~~~ sqoop import-all-tables –connect jdbc:mysql://192.168.81.176/hivemeta2db --username root -password passwd ~~~ 如果想要指定所需的列，使用如下： ~~~ sqoop import --connect?jdbc:mysql://192.168.81.176/hivemeta2db?--username root -password passwd --table sds --columns "SD_ID,CD_ID,LOCATION" ~~~ 指定導出文件為SequenceFiles，并且將生成的類文件命名為com.ctrip.sds： ~~~ sqoop import --connect jdbc:mysql://192.168.81.176/hivemeta2db --username root -password passwd --table sds --class-name com.ctrip.sds --as-sequencefile ~~~