- 1,数据仓库的基本概念 了解
- 2,hive基本概念
-
hive的安装部署 搞定
- 3,hive的基本操作
-
建库建表 掌握搞定
-
hive基本语法 掌握搞定
- 4,hive的shell参数 了解
- 5,hive的函数 内置函数 了解
-
自定义函数流程 搞定
- 6,hive的数据压缩 搞定
- 7,hive的数据存储格式 搞定
- 8,存储与压缩相结合 背过
- 9,hive 的调优
- 10,hive综合练习
数据仓库的基本概念
data warehuorse 数据仓库
用于存储数据,不会生产东西,也不会消耗东西,用于分析性的报告和决策支持。
数据仓库的特征
数据仓库是面向主题的:有确切的分析目标,集成的:相关的数据都会搞到这里,非易失的:数据进入后不会轻易地改变
时变性:根据一些不同的指标求取,会产生一些不同的分析维度。
数据库与数据仓库的区别
数据库:OLTP 联机事务处理 主要用于增删改查。
数据仓库:联机分析处理,主要用于数据分析统计的操作。不会增删改
数据仓库的分层
主要分为三层:
1,贴源层:主要获取我们的源数据。
2,数据仓库层:主要对我们的贴源层进一步分析,得出我们想要的结果
3,数据应用层:app层 主要对我们的应用层分析之后的结果作进一步展示。
也叫etl:抽取,转换,加载
为什么分层:提升用户体验,用空间换时间
数据仓库的元数据管理
主要用于记录数据库表之间的关系。
hive的基本介绍
hive是什么:基于hadoop的一个数据仓库的工具,可以在hdfs上结构化的数据映射为一张表
数据结构:
结构化的数据:字段个数一定,字段之间的分隔符一定
泛结构化的数据:例如:xml json
非结构的数据:没有任何规律格式的数据
hive底层数据存储是HDFS,数据统计是MapReduce
可以理解成hive是一个MapReduce的客户端工具
你写的sql语句会翻译成MapReduce的任务去执行。
hive的一些特点
可拓展:可以自由的拓展集群规模,一般不想要重启
延展性:支持用户的自定义函数
容错性:良好的容错
hive 架构
用户接口:主要为了我们编辑sql语句,然后提交给hive
解析器:包含三大块:
编译器:主要将我们的sql语句编译成一个MR任务
优化器:主要是对我们的sql语句进行优化。
执行器:提交MR的任务进行执行。