设为首页 加入收藏

TOP

sqoop   把 hdfs 和关系型数据库 (mysql等)互导
2018-12-06 00:11:38 】 浏览:10
Tags:sqoop   hdfs 关系型 数据库 mysql 互导
版权声明:GOOD DEEP https://blog.csdn.net/u013378306/article/details/51526746

简介

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导入到HadoopHDFS中,也可以将HDFS的数据导入到关系型数据库中。

http://sqoop.apache.org/

导出导入的数据与字段的顺序进行匹配

从HDFS转换回mysql 的时候,自动增长的主键字段处,可以留空


环境

当调试过程出现IncompatibleClassChangeError一般都是版本兼容问题。

为了保证hadoopsqoop版本的兼容性,使用Cloudera

Cloudera简介:

Cloudera为了让Hadoop的配置标准化,可以帮助企业安装,配置,运行hadoop以达到大规模企业数据的处理和分析。

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH4-Downloadable-Tarballs/CDH4-Downloadable-Tarballs.html

下载安装hadoop-0.20.2-cdh3u6sqoop-1.3.0-cdh3u6

目的

将mysql数据转换为hadoop文件,从而可以使用map/reduce进行大数据的分析,然后再将分析结果转换回mysql,供业务查询调用。

安装

安装比较简单,直接解压即可

唯一需要做的就是将mysqljdbc适配包mysql-connector-java-5.0.7-bin.jar copy$SQOOP_HOME/lib下。

配置好环境变量:/etc/profile

export SQOOP_HOME=/home/hadoop/sqoop-1.3.0-cdh3u6/

export PATH=$SQOOP_HOME/bin:$PATH

MYSQLHDFS-示例

./sqoop import --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shop -m 1 --target-dir /user/recsys/input/shop/$today

输出数据:

./hadoop fs -cat /user/recsys/input/shop/2013-05-07/*

生成的hdfs数据

287,516809,0,0,6,25,45.78692,126.65384

288,523944,0,0,29,6,120.26087,30.17264

-------------------------------------------------------


HDFSMYSQ-示例

./sqoop export --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shopassoc --fields-terminated-by ',' --export-dir /user/recsys/output/shop/$today

输入数据:

./hadoop fs -cat /user/recsys/output/shop/2013-05-07/*

Hdfs原始数据

null,857207,729974,947.0818,29,2013-05-08 10:22:29

null,857207,524022,1154.2603,29,2013-05-08 10:22:29

--------------------------------------------------------------------------

技巧

导出导入的数据与字段的顺序进行匹配

从HDFS转换回mysql 的时候,自动增长的主键字段处,可以留空

示例参数说明

参数类型

参数名

解释

公共

connect

Jdbc-url

公共

username

---

公共

password

---

公共

table

表名

Import

target-dir

制定输出hdfs目录,默认输出到/user/$loginName/

export

fields-terminated-by

Hdfs文件中的字段分割符,默认是“\t

export

export-dir

hdfs文件的路径


导出大数据的拆分:

m

使用多少个并行导入,默认是1,未开启,数据量大的话会自动根据主键ID进行拆分

split-by

使用于没有主键的表的拆分,指定拆分的字段,拆分的原则是分布要广泛(自动拆分)

Where

同时可以手动执行多次,通过where条件进行手动拆分

参数

解释

Job

定时作业,个人觉得没啥意义,通常我更相信crontab

eva l

执行sql,远程进行一些操作,但是经过测试发现不支持 delete

create-hive-table

复制某一个数据源的数据存储到hive



编程开发网
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇JAVA API 上传下载文件到HDFS 下一篇java hadoop   hdfs 上写文..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

array(4) { ["type"]=> int(8) ["message"]=> string(24) "Undefined variable: jobs" ["file"]=> string(32) "/mnt/wp/cppentry/do/bencandy.php" ["line"]=> int(214) }