设为首页 加入收藏

TOP

hadoop、spark、Hbase、Hive、hdfs,是什么
2018-12-22 13:49:21 】 浏览:214
Tags:hadoop spark Hbase Hive hdfs 什么
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Ideality_hunter/article/details/53454452

这些都是“大数据”相关的概念,即和关系型数据库,相比较而产生的新技术。即j2ee的web开发中,数据库部分(如传统的关系型数据库的oracle),的内容

1Hbase:是一个nosql数据库,和mongodb类似。


2hdfs:hadoop distribut file system,hadoop的分布式文件系统。

3Hive:


Hive说白了,也是一个数据库。

用来处理结构化(关系型数据库中的数据,如oracle)或者非结构化数据(如10G的txt文本中的数据)。

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件(或者非结构化的数据)映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

使用Hive,就不用去写MapReduce,而是写sql语句就行了。


5spark


6hadoop


7sqoop

sqoop是和Hive一起使用的。

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

http://lookqlp.iteye.com/blog/1666449
使用sqoop导入数据至hive常用语句


直接导入hive表
sqoop import --connect jdbc:postgresql://ip/db_name--username user_name --table table_name --hive-import -m 5
内部执行实际分三部,1.将数据导入hdfs(可在hdfs上找到相应目录),2.创建hive表名相同的表,3,将hdfs上数据传入hive表中


】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇HBase Region 的分裂 下一篇spark-structstreaming-结果数据..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目