GlusterFS将与Hadoop兼融 - Hadoop

TOP

GlusterFS将与Hadoop兼融

2019-02-12 12:36:11 【大中小】浏览:55次

大数据需要大文件系统，这就是开放源码的 GlusterFS 文件系统在即将发布的GlusterFS 3.3版本的设计目标。

Gluster 项目在本周出了GlusterFS 3.3的第二个测试版本，最终发行版预计在今年年底前。新的发行版提供了与Apache Hadoop 的集成点，可以让Hadoop用户使用Gluster存储。对于Gluster，其文件系统和 Hadoop 的 HDFS （Hadoop 文件系统）都是注册的(comptable不会翻译)，但是 Gluster 提供了一些额外的好处，包括可扩展性和性能方面的改进。

“GlusterFS3.3在其文件系统中新增了两种协议”，Gluster的CTO兼董事Periasamy说。“其中一种是对象协议，因此你能以对象的方式访问数据，和Amazon S3的协议类似”

Periasamy指出第二种协议是与HDFS兼容的API

“所以你可以在Gluster上做大数据应用和MapReduce”Periasamy说道

至于现在为什么Gluster添加对Hadoop的支持，Periasamy指出有很多原因。他指出市场的趋势是整个堆栈汇合。此前有类似SAN和NAS的存储池，但它们都只针对特定类型的应用程序。

“我们可以看到，对象存储正在成为存储长期非结构化数据另一个选择”，Periasamy说。“我们现在能够通过Internet轻松扩展并访问存储。”

在HDFS和Hadoop的基础上，Periasamy指出，Hadoop中是先有数据，然后再有应用。他解释说，使用Hadoop的MapReduce框架，一大堆的应用现在已启用，它的增长注入了强大的生态系统。

Periasamy说：“存储引擎最初只是为了处理某些工作负载，元数据服务器是其中一个瓶颈。”

他用HDFS的元数据来作解释。所有的元数据集中存储在一个单一的系统内存中，这是一个横向扩展的性能瓶颈。相比之下，Periasamy指出，Gluster已经具备了强大的存储引擎而没有这种元数据瓶颈。

Periasamy说：“GlusterFS从存储的角度看待大数据的问题，而Hadoop项目是从分析的角度来看待大数据问题”。

因此，Periasamy认为，Hadoop社区用Gluster来做大数据存储后端会带来很多好处。他解释说，Hadoop本身已经足以使Gluster文件系统以模块化的形式插入。

此外Periasamy还指出，Gluster的复制模式，可以使Hadoop的更好的扩展。 Periasamy解释说，Gluster具有保持同步多个站点的复制模块。不依赖于快照复制模型，而是数据的变化发生同步。

“当数据发生变化时，我们有能力按位同步，使我们能够有一个持续的地域复制，”Periasamy说。

展望未来，Periasamy说地理复制将继续在Gluster的下一个版本中增强。

“在GlusterFS3.4中，我们能使故障从一个站点转移到另一个站点，”Periasamy说。

参考资料：

1.http://www.chineselinuxuniversity.net/news/87589.shtml

2.http://www.businesswire.com/news/home/20110823005899/en/Gluster-Announces-Apache-Hadoop-Storage-Compatibility-Latest


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：Hadoop生态系统架构以及Hadoop1和..	下一篇：hadoop本地库版本问题