设为首页 加入收藏

TOP

第三章 Spark机制与原理
2019-02-10 01:14:49 】 浏览:13
Tags:第三章 Spark 机制 原理

循序渐进学Spark

本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。

本章重点讲解Spark的主要机制原理,因为这是Spark程序得以高效执行的核心。

本章先从Application、job、stage和task等层次阐述Spark的调度逻辑,

并且介绍FIFO、FAIR等经典算法,

然后对Spark的重要组成模块:

I/O与通信控制模块、

容错模块及Shuffle模块做了深入的阐述。

其中,在Spark I/O模块中,数据以数据块的形式管理,存储在内存、磁盘或者Spark集群中的其他机器上。

Spark集群通信机制采用了AKKA通信框架,在集群机器中传递命令和状态信息。

另外,容错是分布式系统的一个重要特性,Spark采用了lineage与checkpoint机制来保证容错性。

Spark Shuffle模块借鉴了MapReduce的Shuffle机制,但在其基础上进行了改进与创新。

3.1 Spark应用执行机制分析

http://www.jianshu.com/p/4217446a87c4

3.2 Spark调度机制

http://www.jianshu.com/p/7f854512d254

3.3 Spark存储与I/O

http://www.jianshu.com/p/306b02760f4c

3.4 Spark通信机制

http://www.jianshu.com/p/f5ce9dbc1c3f

3.5 容错机制及依赖

http://www.jianshu.com/p/4f40ecfb5f04

3.6 Shuffle机制

http://www.jianshu.com/p/b1834e91f445


编程开发网
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Spark与深度学习框架——H2O、dee.. 下一篇数据挖掘之Spark学习

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

array(4) { ["type"]=> int(8) ["message"]=> string(24) "Undefined variable: jobs" ["file"]=> string(32) "/mnt/wp/cppentry/do/bencandy.php" ["line"]=> int(214) }