设为首页 加入收藏

TOP

【Spark】spark笔记
2019-04-18 01:02:37 】 浏览:47
Tags:Spark spark 笔记
版权声明:转载请注明出处 https://blog.csdn.net/qq_39164068/article/details/89258427

Spark粗略总结,后面会排版更新

1.spark简介

spark是一种专门为大规模数据处理而设计的 快速通用的计算引擎。

2.与mapreduce的对比

spark在计算过程中产生的中间输出结果是保存在内存中的

spark一般情况下比mapreduce快十倍,在迭代计算(机器学习中的逻辑回归)的时候可以快100倍

3.spark速度快的原因

(1)基于内存计算,也就是中间输出结果保存在内存中

(2)DAG有向无环图可以切分任务执行的先后顺序

4.运行模式

(1)local(2)standalone(3)yarn(4)mesos

5.RDD(弹性分布式数据集)的五大特性

(1)RDD是由一系列patition组成的

(2)函数是作用在patition上的

(3)RDD之间具有依赖关系

(4)分区器是作用在具有K,V格式的RDD上的

(5)RDD提供一系列的最佳计算位置,移动计算不移动数据

6.什么是K,V格式的RDD

RDD中存储的都是二元组对象

7.RDD的弹性如何体现

patition的个数和大小可以改变,没有限制,而RDD又是由一系列的patition组成的

8.RDD的容错如何体现

RDD之间具有依赖关系,可以通过上一个RDD重新计算出RDD

9.RDD的分布式的体现

patition是分布式的在不同的节点上的,RDD由一系列的patition组成

10.RDD的API代码流程

(1)创建一个SparkConf对象

(2)创建一个SparkContext对象,并传入参数conf

(3)基于Spark创建一个RDD对象

(4)应用程序中要有action行动算子来触发Transformations转换算子的执行

(5)关闭Spark上下文对象

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇spark错误合集 下一篇spark参数调优

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目