数据分区------《Designing Data-Intensive Applications》读书笔记9 - 分析设计

TOP

数据分区------《Designing Data-Intensive Applications》读书笔记9(二)

2019-09-17 18:55:09 【大中小】浏览:57次

Tags：数据分区 ------ Designing Data-Intensive Applications 读书笔记

裂成1000个分区，以便分配给每个节点大约100个分区。当将一个节点添加到集群中，新节点可以从每个现有节点窃取一些分区，直到再次公平分配分区为止。如下图所示：
海量分区的再平衡

分区的数量不会改变，分区的键分配也不会改变。唯一改变的是分区与节点之间的映射。这种分区平衡的变化不是即时的，在网络上传输大量数据需要一定的时间，所以旧的分区节点在分区平衡时需要承担这个过程之中的读写操作。通过海量分区同样也可以通过给性能更强悍的节点分配更多的分区，可以强制这些节点承担更大的负载份额。

一开始配置的分区数量就是所能拥有的最大节点数，因此您需要选择足够高的分区数目以适应未来的增长。然而，每个分区也有管理开销，所以选择过高的值会适得其反。

动态分区

对于使用键范围分区的数据库，固定范围值的固定分区数量将非常不方便：如果您的边界错误，您可能会将所有数据放在一个分区中，而所有其他分区都是空的。手动重新分区分区将非常繁琐。所以可以采取动态分区的机制：

当一个分区的增长超过配置的大小，它被分为两个分区，大约一半的数据分配在两个新的分区。相反，如果大量数据被删除，一个分区缩小到某个阈值以下，它可以与相邻分区合并。动态分区的优点是分区的数量与总数据量相适应。如果只有少量的数据，少量的分区就足够了，因此开销很小；如果有大量的数据，每个单独的分区的大小限制为一个可配置的最大值。

4. 请求路由

在多台机器上运行的多个节点上对数据集进行分区，所以会面临一个核心问题：当客户端想要提出请求时，它如何知道要连接哪个节点？当分区被重新平衡，分区节点变化的时候客户端如何感知变化。

在高层次上，对这个问题有几种不同的解决方案：

1.允许客户端与任何节点联系。如果该节点恰好拥有请求所应用的分区，则它可以直接处理请求；否则，它将请求转发到适当的节点，接收应答，并将应答传递给客户端。
1. 将客户端的所有请求首先发送到路由层，这将决定应处理每个请求并相应转发它的节点。
1. 要求客户端知道分区和分配给节点的分区。在这种情况下，客户机可以直接连接到适当的节点，而不需要任何中介。

三种路由解决方案

在三种情况之中关键的问题是：组成路由决策的组件（可能是其中一个节点，或者路由层，或客户端）如何了解分区分配给节点的变化？

许多分布式数据系统依赖于一个单独的协调服务如ZooKeeper跟踪这个集群的元数据，每个节点在ZooKeeper之中注册自己。ZooKeeper维护分区节点映射的权威，而路由层或客户端，可以订阅这个ZooKeeper。当一个分区发生变化时，或添加一个节点或删除，ZooKeeper通知路由层，这样可以保持它的路由信息更新。如下图所示：
基于ZooKeeper的请求路由

Cassandra和Riak采取了不同的方法：通过使用Gossip协议节点之间传播集群状态的任何变化。请求可以发送到任何节点，该节点将它们转发到所请求分区的适当节点。该模型提出了更复杂的数据库节点，但避免了外部协调服务的依赖。

当使用路由层或向随机节点发送请求时，客户端仍然需要找到连接到的IP地址。这些并不像分区对节点的分配那样快速变化，因此经常使用DNS来达到此目的。

小结：

我们在本篇之中总结了数据分区技术运用到的多种策略与技术，希望大家能够更好的认识数据分区技术在分布式存储之中的重要意义。

首页上一页 1 2 下一页尾页 2/2/2
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：RefulApi自动化测试~Hitchhiker的..	下一篇：SSM框架的搭建