目录
目录
目录
1.hive简介
1.1 什么是hive
1.2 hive的源数据存储
1.3 hive与传统数据库的区别
2.hive原理
3.hive的数据管理
4.hive的调优
5.有关hive的面试题
1.hive简介
1.1 什么是hive
hive是一种基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据表,并提供类sql查询功能。它可以将sql语句转换为MapReduce任务进行运行。hive主要是利用HDFS来存储数据,利用MapReduce来查询分析数据。它的本质是将sql转换成MapReduce程序,比直接用MapReduce开发效率更高。hive在运行时,实际的源数据存在HDFS上,而描述数据的元数据存放在关系型数据库中(有三种存储方式,建议存在关系型数据库中)。
1.2 hive的元数据存储
hive的元数据存储方式
1.内存数据库 derby,安装小,但是数据存在内存,不稳定
2.mysql数据库,数据存储模式可以自己设置,持久化好,查看方便。
1.3 hive与传统数据库的区别
2.hive原理
3.hive的数据管理
4.hive的调优
5.有关hive的面试题