TOP

【深入理解Hadoop之一】 Hadoop1.0,2.0,3.0区别
2018-12-10 16:20:19 】 浏览:1082次 本网站的内容取自网络,仅供学习参考之用,绝无侵犯任何人知识产权之意。如有侵犯请您及时与本人取得联系,万分感谢。
Tags:深入 理解 Hadoop 之一 Hadoop1.0 2.0 3.0 区别

序言:

贪多嚼不烂,我们今天开始一步一个脚印的开始深入Hadoop,了解其中的知识。希望对大数据相关概念有一个查漏补缺以及跟深刻的了解,如果文中有任何错误欢迎指点出来,错误不可怕无知也不可怕,怕的是把错的当成对的。首先介绍讲下他们之间的区别,以及该如何选择版本。

1.X,2.X区别:

从HDFS角度来看:

1:Hadoop2.0新增了HDFS HA机制,HA增加了standbynamenode进行热备份,解决了1.0的单点故障问题。

2:Hadoop2.0新增了HDFS federation,解决了HDFS水平可扩展能力。

允许有多个namenode独立运行组成联邦。每个datanode向所有name进行注册。

每个namenode维护一个命名空间卷(互相独立)上层通过一个挂载表组织来访问数据。

命名空间卷:包括池块和命名空间元数据

块池:逻辑概念,该命名空间文件的所有块;可能在不同机器上。

命名空间元数据:命名空间元数据

这两个特性会在之后的文章中提到。

从mapreduce角度来看:

2.0相比于1.0 新增了YARN框架,Mapreduce的运行环境发生了变化

在1.0中:由一个JobTracker和若干个TaskTracker两类服务组成,其中JobTracker负责资源管理和所有作业的控制,TaskTracker负责接收来自JobTracker的命令并执行它。所以MapReduce即是任务调度框架又是计算框架,1.0中会出现JobTracker大包大揽任务过重,而且存在单点故障问题,并且容易出现OOM问题,资源分配不合理等问题。

在2.0中:MASTER端由ResourceManager进行资源管理调度,有ApplicationMaster进行任务管理和任务监控。SLAVE端由NodeManager替代TaskTracker进行具体任务的执行,所以MapReduce2.0只是一个计算框架,具体资源调度全部交给Yarn框架。

2.X和3.X最主要区别:

1:Java运行环境升级为1.8;

2:HDFS支持纠删码:

纠删码相比于副本机制节省了一半以上的存储空间,普通副本机制需要3倍存储空间而这种机制只需1.4倍即可。

3::YARN时间线服务:

4:支持多余2个以上的NameNodes

3.0支持单active namenode+多standby namenode部署方式进一步提升了可用性。

5:MapReduce本地优化,性能提升了30%。

最后相比于1.0和2.0,3.0在实际使用过程中比较不稳定。

欢迎指正和补充

请关注公众号获取更多资料


【深入理解Hadoop之一】 Hadoop1.0,2.0,3.0区别 https://www.cppentry.com/bencandy.php?fid=114&id=196053

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇hadoop fs   常用的shell命.. 下一篇Hadoop和Storm的4点区别

评论

验 证 码:
表  情:
内  容: