设为首页 加入收藏

TOP

Spark和Hadoop的架构区别解读
2019-05-07 12:40:44 】 浏览:79
Tags:Spark Hadoop 架构 区别 解读
版权声明:本博客都是作者10多年工作总结 https://blog.csdn.net/Peter_Changyb/article/details/82661743

总的来说,Spark采用更先进的架构,使得灵活性、易用性、性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高。我总结,具体表现在如下几个方面:

框架:

  • Hadoop:MapRedcue由Map和Reduce两个阶段,并通过shuffle将两个阶段连接起来的。但是套用MapReduce模型解决问题,不得不将问题分解为若干个有依赖关系的子问题,每个子问题对应一个MapReduce作业,最终所有这些作业形成一个DAG。
  • Spark:是通用的DAG框架,可以将多个有依赖关系的作业转换为一个大的DAG。核心思想是将Map和Reduce两个操作进一步拆分为多个元操作,这些元操作可以灵活组合,产生新的操作,并经过一些控制程序组装后形成一个大的DAG作业。

中间计算结果处理:

  • Hadoop:在DAG中,由于有多个MapReduce作业组成,每个作业都会从HDFS上读取一次数据和写一次数据(默认写三份),即使这些MapReduce作业产生的数据是中间数据也需要写HDFS。这种表达作业依赖关系的方式比较低效,会浪费大量不必要的磁盘和网络IO,根本原因是作业之间产生的数据不是直接流动的,而是借助HDFS作为共享数据存储系统。
  • Spark:在Spark中,使用内存(内存不够使用本地磁盘)替代了使用HDFS存储中间结果。对于迭代运算效率更高。

操作模型:

  • Hadoop:只提供了Map和Reduce两种操作所有的作业都得转换成Map和Reduce的操作。
  • Spark:提供很多种的数据集操作类型比如Transformations 包括map, filter, flatMap,sample, groupByKey, reduceByKey, union, join,cogroup, mapValues,sort,partionBy等多种操作类型,还提供actions操作包括Count,collect, reduce,lookup, save等多种。这些多种多样的数据集操作类型,给开发上层应用的用户提供了方便。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇hadoop yarn内存的管理及分配 下一篇hadoop启动时需要输入密码的几种..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目