设为首页 加入收藏

TOP

Spark shell交互
2019-03-25 13:22:18 】 浏览:42
Tags:Spark shell 交互

Spark带有交互式的Shell 可以作为即时数据分析接口,相对于Python Bash Windows Shell等,Spark Shell最大的特点是可以用来与分布式存储在许多机器的内存或磁盘上数据进行交互,并且处理过程的分发由Spark自动完成

Spark能够在工作节点上把数据读取到内存,所以分布式计算都可以在几秒内完成,即使探索性分析变得很适合Spark,Spark提供Python以及Scala增强版的Shell 支持与集群的连接

启动Spark-shell

对于语句 val line=sc.textFile("test.txt") 从本地文件读取一个RDD

lines.count() lines.first()则是RDD数据集的操作

每一个Spark应用都由一个驱动器程序 Driver Program来发起集群上的各种并行操作,驱动器程序包含Main过程,并且定义了集群上的分布式数据集,如上面例子的Spark-Shell就是一个驱动器程序

驱动器程序通过一个SparkContext对象来访问Spark 这个对象代表对计算集群的一个连接,Spark-shell启动时自动初始化一个SparkConetxt对象,即sc变量

要执行操作,驱动器程序一般管理多个执行器节点,使他们并行的完成计算任务

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇spark IDE:   System memory.. 下一篇spark学习笔记:一.初步了解spark

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目