阅读目录
一、Hive内部表和外部表
0、Hive是什么?
Hive是一个SQL解析引擎,将SQL语句转译成MR Job,然后再Hadoop平台上运行,达到快速开发的目的。
Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。本质就是Hadoop的目录/文件,达到了元数据与数据存储分离的目的
Hive本身不存储数据,它完全依赖HDFS和MapReduce.。
Hive的内容是读多写少,不支持对数据的改写和删除
Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:
-- 列分隔符
-- 行分隔符
-- 读取文件数据的方法
1、Hive的create创建表的时候,选择的创建方式:
- create table
- create external table
2、特点:
● 在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!而表则不一样;
● 在删除表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的!
注意:
1、- create table 创建内部表,create external table 创建外部表
2、建议在工作中用外部表来创建
二、Hive中的Partition
● 在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition的数据都储存在对应的目录中
– 例如:pvs 表中包含 ds 和 city 两个 Partition,则 – 对应于 ds = 20090801, ctry = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/ctry=US; – 对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为;/wh/pvs/ds=20090801/ctry=CA
● Partition是辅助查询,缩小查询范围,加快数据的检索速度和对数据按照一定的规格和条件进行管理。
三、Hive中的 Bucket
? hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。 ? 'set hive.enforce.bucketing = true' 可以自动控制上一轮reduce的数量从而适 配bucket的个数,当然,用户也可以自主设置mapred.reduce.tasks去适配 bucket个数
? Bucket主要作用:
– 数据sampling,随机采样
– 提升某些查询操作效率,例如mapside join
? 查看sampling数据: – hive> select * from student tablesample(bucket 1 out of 2 on id); – tablesample是抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y) – y必须是table总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。例如,table总共分了64份,当y=32 时,抽取(64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽 取。例如,table总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据 ,分别为第3个bucket和第(3+16=)19个bucket的数据
四、Hive数据类型
1、原生类型
– 原生类型 ? TINYINT ? SMALLINT ? INT ? BIGINT ? BOOLEAN ? FLOAT ? DOUBLE ? STRING ? BINARY(Hive 0.8.0以上才可用) ? TIMESTAMP(Hive 0.8.0以上才可用)
2、复合类型
– 复合类型 ? Arrays:ARRAY<data_type> ? Maps:MAP<primitive_type, data_type> ##复合类型 ? Structs:STRUCT<col_name: data_type[COMMENT col_comment],……> ? Union:UNIONTYPE<data_type, data_type,……>
五、Hive SQL — — Join in MR
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
SELECT pageid, age, count(1)
FROM pv_users
GROUP BY pageid, age;
六、Hive的优化
? Map的优化:
– 作业会通过input的目录产生一个或者多个map任务。set dfs.block.size
– Map越多越好吗?是不是保证每个map处理接近文件块的大小?
– 如何合并小文件,减少map数?
set mapred.max.split.size=100000000; #100M set mapred.min.split.size.per.node=100000000; set mapred.min.split.size.per.rack=100000000; set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
– 如何适当的增加map数?
set mapred.map.tasks=10;
– Map端聚合 hive.map.aggr=true 。 Mr中的Combiners.
? Reduce的优化:
? Reduce的优化: – hive.exec.reducers.bytes.per.reducer;reduce任务处理的数据量
– 调整reduce的个数: ? 设置reduce处理的数据量 ? set mapred.reduce.tasks=10
select pt,count(1) from popt_tbaccountcopy_mes where pt = '2012-07-04' group by pt; 写成 select count(1) from popt_tbaccountcopy_mes where pt = '2012-07-04';
Set mapred.reduce.tasks = 100 Create table a_standby_table as select * from a distribute by XXX
? 分区裁剪优化(partition):
– Where中的分区条件,会提前生效,不必特意做子查询,直接Join和GroupBy
? 笛卡尔积:
– join的时候不加on条件或者无效的on条件,Hive只能使用1个reducer来完成笛卡尔积
? Map join:
– /*+ MAPJOIN