设为首页 加入收藏

TOP

(15)大数据之hive01
2019-04-27 00:41:48 】 浏览:40
Tags:数据 hive01
  • 1,数据仓库的基本概念 了解
  • 2,hive基本概念
  •  hive的安装部署    搞定
    
  • 3,hive的基本操作
  •  建库建表 		掌握搞定
    
  •  hive基本语法  掌握搞定
    
  • 4,hive的shell参数 了解
  • 5,hive的函数 内置函数 了解
  •  						自定义函数流程   搞定
    
  • 6,hive的数据压缩 搞定
  • 7,hive的数据存储格式 搞定
  • 8,存储与压缩相结合 背过
  • 9,hive 的调优
  • 10,hive综合练习

数据仓库的基本概念

data warehuorse 数据仓库
用于存储数据,不会生产东西,也不会消耗东西,用于分析性的报告和决策支持。

数据仓库的特征

数据仓库是面向主题的:有确切的分析目标,集成的:相关的数据都会搞到这里,非易失的:数据进入后不会轻易地改变
时变性:根据一些不同的指标求取,会产生一些不同的分析维度。

数据库与数据仓库的区别

数据库:OLTP 联机事务处理 主要用于增删改查。
数据仓库:联机分析处理,主要用于数据分析统计的操作。不会增删改

数据仓库的分层

主要分为三层:
1,贴源层:主要获取我们的源数据。
2,数据仓库层:主要对我们的贴源层进一步分析,得出我们想要的结果
3,数据应用层:app层 主要对我们的应用层分析之后的结果作进一步展示。
也叫etl:抽取,转换,加载
为什么分层:提升用户体验,用空间换时间

数据仓库的元数据管理

主要用于记录数据库表之间的关系。

hive的基本介绍

hive是什么:基于hadoop的一个数据仓库的工具,可以在hdfs上结构化的数据映射为一张表

数据结构:
结构化的数据:字段个数一定,字段之间的分隔符一定
泛结构化的数据:例如:xml json
非结构的数据:没有任何规律格式的数据

hive底层数据存储是HDFS,数据统计是MapReduce
可以理解成hive是一个MapReduce的客户端工具
你写的sql语句会翻译成MapReduce的任务去执行。

hive的一些特点

可拓展:可以自由的拓展集群规模,一般不想要重启
延展性:支持用户的自定义函数
容错性:良好的容错

hive 架构

用户接口:主要为了我们编辑sql语句,然后提交给hive
解析器:包含三大块:
编译器:主要将我们的sql语句编译成一个MR任务
优化器:主要是对我们的sql语句进行优化。
执行器:提交MR的任务进行执行。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇3 hql语法及自定义函数(含array.. 下一篇Hive的访问接口 | Allen's Wo..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目