HBase优化之避免数据倾斜 - HBase - 程序员开发

设为首页加入收藏

编程入门

首页

C语言

C++开发

Python

Java

AI大数据: Hadoop

Hdfs

Spark

Hive

HBase

Flume

Kfaka

操作系统: Win

Linux

OS X

其它

windows编..

linux编程..

网络编程

热门语言: GO

PHP

R语言

.Net

Swift

Ruby

Scala

等级考试: C语言

C++

JAVA

面试

当前位置：

首页 -> 大数据 -> HBase

TOP

HBase优化之避免数据倾斜

2019-02-22 13:41:04 【大中小】浏览:166次

Tags：HBase 优化避免数据倾斜

相关知识

数据存入hbase表时会按照rowkey落在不同的region中，每个region都有边界（除非你只有一个region）startrow和endrow，rowkey在表中是按照ASCⅡ码排序的。

例如下图中的region情况，如果有一个rowkey是006123456，它在0050和0100之间，因此它会被放在第二个region中。

region被regionserver管理，Hbase可以自动将region balance到各个regionserver上，使得每台regionserver上region的个数均匀分布。当某一个regionserver停止服务，它所管理的region会transit到其他regionserver上。regionserver又重新启动后，balancer会再次自动平衡region。

避免region分布倾斜

这里有一个参数需要调整，默认情况下，hbase的balancer是regionserver级别，与表无关，可以想象极端情况下整个每个regionserver下的region个数一样多,但一张表的所有region可能都在一台机器上，这也算是一种数据倾斜，可以通过hbase.master.loadbalance.bytable设置表级别均衡。

避免rowkey分布倾斜

上面描述的Hbase机制保证了region能够均匀的分布在各个节点上，但细化到rowkey粒度就需要我们自己来控制了，书中和网络上有很多rowkey设计的文章谈到不同场景下rowkey的设计，比如用Hash、Salt、Reverse，这里就不再赘述。

这里给出一个判断数据分布倾斜的方法，就是在hbase目录下表中文件夹大小，每个文件夹就对应着一个region，第一列是三备份前大小，文件夹名就是HbaseWebUI的TableDetail页中regionname的最后一部分（见图）。装入数据后，如果每个文件夹大小都差不多，并在合理的大小范围内，那说明切分的比较好。如果某个文件夹特别大，就要考虑是否有未想到的数据情况，或是rowkey设计不合理。尤其要注意一些特殊值，比如数据是从关系型数据库抽取而来的，那么要提前做好数据探查，了解生成rowkey用的字段是否有为空或者大量特殊值情况，以避免数据倾斜。


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：HBase表增加snappy压缩	下一篇：Hbase架构 Hbase Region的..

最新文章

Hbase架构 Hbase Region的拆..

5 hbase-shell + hbase的j..

Hbase MapReduce例子

热门文章

GeoMesa-HBase部署实践

Oracle GoldenGate 同步数据至Hbase

Flink读写系列之-读HBase并写入HBase

传统的行存储和（HBase）列存储的区..

flink实战--读写Hbase

Hot 文章

GeoMesa-HBase部署实践

Oracle GoldenGate 同步数据至Hbase

Flink读写系列之-读HBase并写入HBase

传统的行存储和（HBase）列存储的区..

flink实战--读写Hbase

Python

817

Django框架系列目录

654

创建Anaconda虚拟Pyt

1252

Python获取主目录的

890

Python中跨越多个文

543

chatgpt使用python写

743

一条爬虫抓取一个小

614

Python教程：sys.std

672

Python教程(13)——P

857

Docker安装配置Jupyt

738

【matplotlib基础】-

C 语言

538

C语言入坑总结

629

C数据结构-线性表之顺序表

1392

Programming abstractions in..

553

C语言内存布局

839

最全的李慧芹APUE-标准IO笔记

750

alog一个日志库

604

1.1.初识STM32及新建工程

807

codeblock安装及汉化教程

623

东方博宜OJ1000 熟悉一下Onli..

1351

关于指针与引用传递的效率问题

C++基础

1221

KMP 字符串匹配学习笔记

902

2.10 PE结构：重建重定位表结..

578

【Qt6】列表模型——抽象基类

700

2.12 PE结构：实现PE字节注入

627

568

2.14 PE结构：地址之间的转换

618

4.1 应用层Hook挂钩原理分析

979

使用Vulkan-Loader将ncnn代码..

643

4.3 IAT Hook 挂钩技术

550

C++ 学习笔记、01 | 开发简单..

大数据基础

1017

多线程：线程的同步

578

vertica-->kafka-

901

655

解决android studio

594

Kafka史上最详细原理

620

Error while fetchin

759

【Kafka】安装与快速

495

658

flume读取日志数据写

648

Authentication plug

linux编程基础

719

如何在Python中过滤字符串列表

727

如何在Python中读写文件

746

初识Lambda表达式

803

深入理解Python中的列表推导..

1027

如何在Python中执行外部命令

1085

设计模式之单例模式理解

599

跟我学Python GUI编程系列 - ..

1364

21道并发编程面试题

612

深入理解 Hadoop 序列化

984

CAS无锁机制深入理解

C/C++面试题目

1221

KMP 字符串匹配学习

578

【Qt6】列表模型——

902

2.10 PE结构：重建重

627

700

2.12 PE结构：实现PE

568

2.14 PE结构：地址之

979

使用Vulkan-Loader将

618

4.1 应用层Hook挂钩

643

4.3 IAT Hook 挂钩技

550

C++ 学习笔记、01 |

Copyright@https://www.cppentry.com all rights reserved 粤ICP备13067022号-3