设为首页 加入收藏

TOP

spark场景、优点与架构
2019-02-12 01:22:07 】 浏览:21
Tags:spark 场景 优点 架构
  • 本部分内容来自于《深入理解spark核心思想与源码分析》第二章

spark 场景

  • 相比于Hadoop 的高吞吐,低响应的特点,spark将map.reduce计算的中间结果存在内存中,通过内存计算能极大地提高数据处理的速度,可以支持实时的场景

spark 优点

  • 实时计算能力

  • 易学(支持python scala R shell 交互,且支持SQL)

  • 多个master 节点解决hadoop 单节点故障问题。

spark 模块

spark模块依赖

  • Spark Core : Spark Context 初始化;部署、存储、任务提交执行、计算

  • Spark SQL

  • Spark Graphx

  • SparkStreaming 流式计算处理能力

SparkContext

  • Driver Application 执行与输出是通过SparkContext 完成的。通过DAGScheduler创建job,将RDD划分到不同的stage ,提交stage任务。
    这里写图片描述

集群部署角度架构


fill/I0JBQkFCMA==/dissolve/70" alt="spark 架构" title="">

  • 主要三部分 Driver ,Cluster Manager,Worker

  • 理解Driver 用来提交job 创建划分RDD

  • cluster 用来资源的分配与管理,即对当前的任务按照各个worker 目前计算资源进行分配,但是不关心各个worker上面的任务分配-

  • worker :创建excutor 将集群分配给自己的任务分发到各个excutor上


编程开发网
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇在Spark中使用Pivot重塑数据 下一篇spark 决策树浅谈

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

array(4) { ["type"]=> int(8) ["message"]=> string(24) "Undefined variable: jobs" ["file"]=> string(32) "/mnt/wp/cppentry/do/bencandy.php" ["line"]=> int(217) }