设为首页 加入收藏

TOP

GlusterFS将与Hadoop兼融
2019-02-12 12:36:11 】 浏览:55
Tags:GlusterFS 将与 Hadoop 兼融

大数据需要大文件系统,这就是开放源码的 GlusterFS 文件系统在即将发布的GlusterFS 3.3版本的设计目标。

Gluster 项目在本周出了GlusterFS 3.3的第二个测试版本,最终发行版预计在今年年底前。新的发行版提供了与Apache Hadoop 的集成点,可以让Hadoop用户使用Gluster存储。对于Gluster,其文件系统和 Hadoop 的 HDFS (Hadoop 文件系统)都是注册的(comptable不会翻译),但是 Gluster 提供了一些额外的好处,包括可扩展性和性能方面的改进。

“GlusterFS3.3在其文件系统中新增了两种协议”,Gluster的CTO兼董事Periasamy说。“其中一种是对象协议,因此你能以对象的方式访问数据,和Amazon S3的协议类似”


Periasamy指出第二种协议是与HDFS兼容的API

“所以你可以在Gluster上做大数据应用和MapReduce”Periasamy说道

至于现在为什么Gluster添加对Hadoop的支持,Periasamy指出有很多原因。他指出市场的趋势是整个堆栈汇合。此前有类似SAN和NAS的存储池,但它们都只针对特定类型的应用程序。

“我们可以看到,对象存储正在成为存储长期非结构化数据另一个选择”,Periasamy说。“我们现在能够通过Internet轻松扩展并访问存储。”

在HDFS和Hadoop的基础上,Periasamy指出,Hadoop中是先有数据,然后再有应用。他解释说,使用Hadoop的MapReduce框架,一大堆的应用现在已启用,它的增长注入了强大的生态系统。

Periasamy说:“存储引擎最初只是为了处理某些工作负载,元数据服务器是其中一个瓶颈。”

他用HDFS的元数据来作解释。所有的元数据集中存储在一个单一的系统内存中,这是一个横向扩展的性能瓶颈。相比之下,Periasamy指出,Gluster已经具备了强大的存储引擎而没有这种元数据瓶颈。

Periasamy说:“GlusterFS从存储的角度看待大数据的问题,而Hadoop项目是从分析的角度来看待大数据问题”。

因此,Periasamy认为,Hadoop社区用Gluster来做大数据存储后端会带来很多好处。他解释说,Hadoop本身已经足以使Gluster文件系统以模块化的形式插入。

此外Periasamy还指出,Gluster的复制模式,可以使Hadoop的更好的扩展。 Periasamy解释说,Gluster具有保持同步多个站点的复制模块。不依赖于快照复制模型,而是数据的变化发生同步。

“当数据发生变化时,我们有能力按位同步,使我们能够有一个持续的地域复制,”Periasamy说。

展望未来,Periasamy说地理复制将继续在Gluster的下一个版本中增强。

“在GlusterFS3.4中,我们能使故障从一个站点转移到另一个站点,”Periasamy说。

参考资料:

1.http://www.chineselinuxuniversity.net/news/87589.shtml

2.http://www.businesswire.com/news/home/20110823005899/en/Gluster-Announces-Apache-Hadoop-Storage-Compatibility-Latest

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Hadoop生态系统架构以及Hadoop1和.. 下一篇hadoop本地库版本问题

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目