(15)大数据之hive01 - Hive

TOP

(15)大数据之hive01

2019-04-27 00:41:48 【大中小】浏览:40次

数据仓库的基本概念

data warehuorse 数据仓库
用于存储数据，不会生产东西，也不会消耗东西，用于分析性的报告和决策支持。

数据仓库是面向主题的：有确切的分析目标，集成的：相关的数据都会搞到这里，非易失的：数据进入后不会轻易地改变
时变性：根据一些不同的指标求取，会产生一些不同的分析维度。

数据库：OLTP 联机事务处理主要用于增删改查。
数据仓库：联机分析处理，主要用于数据分析统计的操作。不会增删改

主要分为三层：
1，贴源层：主要获取我们的源数据。
2，数据仓库层：主要对我们的贴源层进一步分析，得出我们想要的结果
3，数据应用层：app层主要对我们的应用层分析之后的结果作进一步展示。
也叫etl：抽取，转换，加载
为什么分层：提升用户体验，用空间换时间

主要用于记录数据库表之间的关系。

hive是什么：基于hadoop的一个数据仓库的工具，可以在hdfs上结构化的数据映射为一张表

数据结构：
结构化的数据：字段个数一定，字段之间的分隔符一定
泛结构化的数据：例如：xml json
非结构的数据：没有任何规律格式的数据

hive底层数据存储是HDFS，数据统计是MapReduce
可以理解成hive是一个MapReduce的客户端工具
你写的sql语句会翻译成MapReduce的任务去执行。

可拓展：可以自由的拓展集群规模，一般不想要重启
延展性：支持用户的自定义函数
容错性：良好的容错

用户接口：主要为了我们编辑sql语句，然后提交给hive
解析器：包含三大块：
编译器：主要将我们的sql语句编译成一个MR任务
优化器：主要是对我们的sql语句进行优化。
执行器：提交MR的任务进行执行。