版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Ideality_hunter/article/details/53454452
这些都是“大数据 ”相关的概念,即和关系型数据库 ,相比较而产生的新技术。即j2ee的web开发中,数据库 部分(如传统的关系型数据库的oracle),的内容
1Hbase:是一个nosql数据库,和mongodb类似。
2hdfs:hadoop distribut file system,hadoop的分布式文件系统。
3Hive:
Hive说白了,也是一个数据库。
用来处理结构化(关系型数据库中的数据,如oracle)或者非结构化数据(如10G的txt文本中的数据)。
hive是基于Hadoop的一个 数据仓库 工具,可以将结构化的数据文件(或者非结构化的数据)映射为一张数据库表,并提供简单的sql查询 功能,可以将sql语句转换为MapReduce任务 进行运行。
其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用 ,十分适合 数据仓库 的统计分析。
使用Hive,就不用去写MapReduce,而是写sql语句就行了。
5spark
6hadoop
7sqoop
sqoop是和Hive一起使用的。
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个 关系型数据库 (例如
: MySQL ,Oracle ,Postgres等)中的数据 导进 到Hadoop的 HDFS 中,也可以将HDFS的数据导进到关系型数据库中。
http://lookqlp.iteye.com/blog/1666449
使用sqoop导入数据至hive常用语句 直接导入hive表 sqoop import --connect jdbc:postgresql://ip/db_name--username user_name --table table_name --hive-import -m 5 内部执行实际分三部,1.将数据导入hdfs(可在hdfs上找到相应目录),2.创建hive表名相同的表,3,将hdfs上数据传入hive表中