设为首页 加入收藏

TOP

讲给普通人听的分布式数据存储(二)
2015-11-21 01:31:56 来源: 作者: 【 】 浏览:1
Tags:普通人 分布式 数据 存储
现代数据存储的常见模式
?
提供的性能/规模和可用性良好搭配的一种常见方法,是结合分隔和复制形成一种配置(或者说是模式)。这有时被称为分隔的副本集合(partitioned replica set)。
不论是Hadoop、Cassandra或者MongoDB集群,所有这些基本上都符合这种模式,许多AWS数据服务也是如此。让我们了解一下分隔的副本集合的一些共同特征:
?
数据是跨多个节点(或者多个节点集群)分隔的(即,分开的)。没有单一分区拥有所有的数据。单个写操作只发送到一个分区。多个写操作有可能发送到多个分区,因此应当彼此独立。复杂的、事务性、多条记录(因此可能涉及多分区)的写操作应当避免,因为这样可能影响整个系统。
?
单个分区能够处理的最大数据量可能成为潜在的瓶颈。如果一个分区达到它的带宽上限,增加更多的分区以及拆分横跨其间的流量,有助于解决该问题。因此,可以通过增加更多的分区来扩展这种类型的系统。
?
一个分区的索引(key)用来分配各个分区的数据。你需要小心选择分区的索引,这样让读操作和写操作尽可能平均“分布”在所有的分区。如果读/写操作发生聚集,这些操作可能超出某个分区的带宽,进而影响整个系统的性能,而其它分区则并未充分利用。这被称为“热分区”问题。
?
数据在多台主机之间复制。这可以是,每个分区是完全分开的副本集合,或者在同一组主机之上的多个副本集合。一条数据被复制的次数通常被称为复制因子。
?
这样的配置拥有内置的高可用性:数据被复制到多个主机。理论上,若干小于复制因子数量的主机发生故障,不会影响整个系统的可用性。
?
所有这些好处,以及内置的可扩展性和高可用性,伴随着相应的代价:这不再是你的瑞士军刀,单机的关系型数据库管理系统(RDBMS)了。这是复杂的系统,有很多需要管理的可变动的部分和需要微调的参数。需要专业知识来设置、配置和维护这些系统。此外,需要监测和报警的基础设施来确保它们的正常运作。你当然可以自己做,但不容易,你可能短时间无法搞定。
?
为了帮助我们的客户无需管理开销,就获得高扩展性和高可用性的数据存储,AWS提供各种托管的数据/存储服务。因为存在许多不同的优化目标,所以没有单一的魔法数据存储,而是一组服务,每个服务都针对某种特定的工作负载进行了优化。在下一篇博客文章中,我会讲述AWS提供的数据存储选项,讨论每种服务针对什么进行了(以及没有进行)优化。
?
丰富的数据存储,虽然引起一些选择困难,但其实是好事。我们只需超越传统的整个系统只有单个数据存储的想法,接受系统中使用多种数据存储、每个为它最适合的工作负载提供服务这样的思维方式。例如,我们可以使用下面的组合:
?
高性能摄入队列,来获取输入点击流量
?
基于Hadoop的点击流量处理系统
?
基于云的对象存储,用来低成本、长期地存储经过压缩的日常点击流量摘要
?
保存元数据的关系型数据库,可供我们用于充实点击流量的数据
?
用于分析的数据仓库集群
?
用于自然语言查询的搜索集群
?
上面所有这些都可以是某个单一子系统的组成部分,比如叫做网站分析平台。
?
总结
?
商业化互联网带来扩展和可用性的需求,而RDBMS这样的瑞士军刀再也无法满足这样的需求。
?
对数据存储增加水平扩展和冗余加大了系统复杂度,使得ACID更加难以保证,迫使我们按照CAP理论考虑取舍,创造了许多优化和专业化的有趣机会。
?
在系统中使用多个数据存储,每个为与其最适当的工作负载提供服务。
?
现代数据存储是复杂的系统,要求特殊的知识和管理开销。有了AWS,你无需这样的开销,就能享受专用的数据存储的好处。
首页 上一页 1 2 下一页 尾页 2/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇记录一次MongoDB3.0.6版本wiredti.. 下一篇python之路-------字符串与正则表..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: