专注于Scala语言、Hadoop及Spark大数据处理技术
作者:周志湖 微信号:zhouzhihubeyond本节主要内容 Window Operation 入门案例 1. Window OperationSpark Streaming提供窗口操作(Window Operation),如下图所示: 上图中,红色实线表示窗口当前的滑动位置,虚线表示...
2015-11-29 15:38:20
阅读数:12730
评论数:4
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html DStream Transformation操作 1. Transformation操作 Transformatio...
2015-11-25 23:54:57
阅读数:8962
评论数:1
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operations Spark流式计算简介 Spark Streaming相关核心类 入门案例 1. Spa...
2015-11-21 22:34:46
阅读数:10813
Spark的爆发式的成长,今年Spark相关书籍明显比去年那时候多得多,这里面所国内外目前所有的书籍推荐给大家。因为在网络上,不便于将书籍的电子版公开出来,需要的可以私信我或加我微信:zhouzhihubeyond国内Spark书籍: 《Spark大数据处理:技术、应用与性能优化》,作者:高彦杰...
2015-11-16 21:15:01
阅读数:12198
评论数:9
Spark Standalone采用的是Master/Slave架构,主要涉及到的类包括:类:org.apache.spark.deploy.master.Master 说明:负责整个集群的资源调度及Application的管理。 消息类型: 接收Worker发送的消息 1. RegisterWo...
2015-11-09 23:35:09
阅读数:8616
评论数:6
主要内容 Intellij IDEA开发环境简介 Intellij IDEA Scala开发环境搭建 Intellij IDEA Spark开发环境搭建 Intellij IDEA常见问题及解决方案 Intellij IDEA常用快捷键 1. Intellij IDEA开发环境简介具体介绍请参见:...
2015-10-29 23:10:25
阅读数:64591
评论数:7
Task执行成功时的结果处理在上一节中,给出了Task在Executor上的运行代码演示,我们知道代码的最终运行通过的是TaskRunner方法class TaskRunner( execBackend: ExecutorBackend, val taskId: Long,...
2015-10-29 19:34:56
阅读数:4690
评论数:3
Task执行在上一节中,我们提到在Driver端CoarseGrainedSchedulerBackend中的launchTasks方法向Worker节点中的Executor发送启动任务命令,该命令的接收者是CoarseGrainedExecutorBackend(Standalone模式),类定...
2015-10-29 12:00:24
阅读数:5013
在上一节中,我们提到Task提交通过makeOffers提交到Executor上 // Make fake resource offers on just one executor private def makeOffers(executorId: String) { ...
2015-10-28 21:38:42
阅读数:4156
评论数:5
Task提交在上一节中的 Stage提交中我们提到,最终stage被封装成TaskSet,使用taskScheduler.submitTasks提交,具体代码如下:taskScheduler.submitTasks(new TaskSet( tasks.toArray, stage...
2015-10-27 23:49:05
阅读数:4309
评论数:0
Stage提交调用流程: 1.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted 2. org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted.submitStage...
2015-10-26 17:45:45
阅读数:4111
博文推荐:http://blog.csdn.net/anzhsoft/article/details/39268963,由大神张安站写的Spark架构原理,使用Spark版本为1.2,本文以Spark 1.5.0为蓝本,介绍Spark应用程序的执行流程。 本文及后面的源码分析都以下列代码为样板i...
2015-10-25 00:03:42
阅读数:6023
Stage划分在上一节中我们讲了 Spark Job的提交,在该讲中我们提到,当rdd触发action操作之后,会调用SparkContext的runJob方法,最后调用的DAGScheduler.handleJobSubmitted方法完成整个job的提交。然后DAGScheduler根据RDD...
2015-10-24 23:48:04
阅读数:6015
前一我们分析了SparkContext的创建,这一节,我们介绍在RDD执行的时候,如何提交job进行分析,同样是下面的源码:import org.apache.spark.{SparkConf, SparkContext}object SparkWordCount{ def main(args...
2015-10-19 23:48:16
阅读数:7854
spark-submit 脚本应用程序提交流程执行提交命令如下:root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# ./spark-submit --master spark://sparkmaster:7077 --cl...
2015-10-19 12:47:04
阅读数:12697
评论数:2
Spark 1.5.0 远程调试作者:摇摆少年梦 微信号:zhouzhihubeyond先决条件 已安装好Spark集群,本例子中使用的是spark-1.5.0. 安装方法参见:http://blog.csdn.net/lovehuangjiaju/article/details/4849473...
2015-10-18 17:50:09
阅读数:12311
参考书目:鸟哥的LINUX私房菜基础学习篇(第三版) Linux Shell Scripting Cookbook本节主要内容 基础正则表达式 1. 基础正则表达式(1)^行开始符^匹配一行的开始,例如’^Spark’ 匹配所有Spark开始的行//grep -n...
2015-10-07 22:29:08
阅读数:4843
本文主要内容 case控制结构 read命令 管道 1. case控制结构参考:http://blog.csdn.net/dreamtdp/article/details/8048720 case控制结构语法格式:case expression in pattern1 ) ...
2015-10-06 16:13:18
阅读数:2721
本节主要内容 while循环控制结构 if条件判断 until循环控制结构1. while循环控制结构本节例子来源:http://blog.chinaunix.net/uid-25880122-id-2901409.html 语法格式: while expression do command c...
2015-10-05 21:14:54
阅读数:4353
本节主要内容 shell脚本调试 shell函数 shell控制结构初步 1. shell脚本调试当脚本出错时,需要对脚本进行调试,学会脚本调试是每个linux系统使用者必备技能。shell脚本调试无需任何额外的工具,只需要要在脚本文件前加-x选项即可,创建debug.sh文件,内容如下:#!/b...
2015-10-05 17:44:49
阅读数:3372