版权声明:转载请注明出处 https://blog.csdn.net/qq_39164068/article/details/89258427
Spark粗略总结,后面会排版更新
1.spark简介
spark是一种专门为大规模数据处理而设计的 快速通用的计算引擎。
2.与mapreduce的对比
spark在计算过程中产生的中间输出结果是保存在内存中的
spark一般情况下比mapreduce快十倍,在迭代计算(机器学习中的逻辑回归)的时候可以快100倍
3.spark速度快的原因
(1)基于内存计算,也就是中间输出结果保存在内存中
(2)DAG有向无环图可以切分任务执行的先后顺序
4.运行模式
(1)local(2)standalone(3)yarn(4)mesos
5.RDD(弹性分布式数据集)的五大特性
(1)RDD是由一系列patition组成的
(2)函数是作用在patition上的
(3)RDD之间具有依赖关系
(4)分区器是作用在具有K,V格式的RDD上的
(5)RDD提供一系列的最佳计算位置,移动计算不移动数据
6.什么是K,V格式的RDD
RDD中存储的都是二元组对象
7.RDD的弹性如何体现
patition的个数和大小可以改变,没有限制,而RDD又是由一系列的patition组成的
8.RDD的容错如何体现
RDD之间具有依赖关系,可以通过上一个RDD重新计算出RDD
9.RDD的分布式的体现
patition是分布式的在不同的节点上的,RDD由一系列的patition组成
10.RDD的API代码流程
(1)创建一个SparkConf对象
(2)创建一个SparkContext对象,并传入参数conf
(3)基于Spark创建一个RDD对象
(4)应用程序中要有action行动算子来触发Transformations转换算子的执行
(5)关闭Spark上下文对象