版权声明:针对本篇博客提供有偿解决问题,可联系qq:【122043580】,微信:【qqqkj520】 https://blog.csdn.net/u013378306/article/details/51526746
简介
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
http://sqoop.apache.org/
导出导入的数据与字段的顺序进行匹配
从HDFS转换回mysql 的时候,自动增长的主键字段处,可以留空
环境
当调试过程出现IncompatibleClassChangeError一般都是版本兼容问题。
为了保证hadoop和sqoop版本的兼容性,使用Cloudera,
Cloudera简介:
Cloudera为了让Hadoop的配置标准化,可以帮助企业安装,配置,运行hadoop以达到大规模企业数据的处理和分析。
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH4-Downloadable-Tarballs/CDH4-Downloadable-Tarballs.html
下载安装hadoop-0.20.2-cdh3u6,sqoop-1.3.0-cdh3u6。
目的
将mysql数据转换为hadoop文件,从而可以使用map/reduce进行大数据的分析,然后再将分析结果转换回mysql,供业务查询调用。
安装
安装比较简单,直接解压即可
唯一需要做的就是将mysql的jdbc适配包mysql-connector-java-5.0.7-bin.jar copy到$SQOOP_HOME/lib下。
配置好环境变量:/etc/profile
export SQOOP_HOME=/home/hadoop/sqoop-1.3.0-cdh3u6/
export PATH=$SQOOP_HOME/bin:$PATH
MYSQL转HDFS-示例
./sqoop import --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shop -m 1 --target-dir
/user/recsys/input/shop/$today
|
输出数据:
./hadoop fs -cat /user/recsys/input/shop/2013-05-07/*
生成的hdfs数据
287,516809,0,0,6,25,45.78692,126.65384
288,523944,0,0,29,6,120.26087,30.17264
-------------------------------------------------------
|
HDFS转MYSQ-示例
./sqoop export --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shopassoc --fields-terminated-by
',' --export-dir /user/recsys/output/shop/$today
|
输入数据:
./hadoop fs -cat /user/recsys/output/shop/2013-05-07/*
Hdfs原始数据
null,857207,729974,947.0818,29,2013-05-08 10:22:29
null,857207,524022,1154.2603,29,2013-05-08 10:22:29
--------------------------------------------------------------------------
|
技巧
导出导入的数据与字段的顺序进行匹配
从HDFS转换回mysql 的时候,自动增长的主键字段处,可以留空
示例参数说明
参数类型
|
参数名
|
解释
|
公共
|
connect
|
Jdbc-url
|
公共
|
username
|
---
|
公共
|
password
|
---
|
公共
|
table
|
表名
|
Import
|
target-dir
|
制定输出hdfs目录,默认输出到/user/$loginName/
|
export
|
fields-terminated-by
|
Hdfs文件中的字段分割符,默认是“\t”
|
export
|
export-dir
|
hdfs文件的路径
|
导出大数据的拆分:
m
|
使用多少个并行导入,默认是1,未开启,数据量大的话会自动根据主键ID进行拆分
|
split-by
|
使用于没有主键的表的拆分,指定拆分的字段,拆分的原则是分布要广泛(自动拆分)
|
Where
|
同时可以手动执行多次,通过where条件进行手动拆分
|
参数
|
解释
|
Job
|
定时作业,个人觉得没啥意义,通常我更相信crontab
|
eva l
|
执行sql,远程进行一些操作,但是经过测试发现不支持 delete
|
create-hive-table
|
复制某一个数据源的数据存储到hive
|