设为首页 加入收藏

TOP

Apache Spark概述
2019-04-14 13:23:02 】 浏览:53
Tags:Apache Spark 概述

Apache Spark是用于分布式计算的通用框架,为批处理和交互式处理提供高性能的服务。 它公开了Java,Python和Scala的API,包括Spark核心和几个相关项目:
<li> Spark SQL ** - 用于处理结构化数据的模块。 允许您无缝地混合SQL查询与Spark程序。
<li> Spark Streaming - API允许您构建可扩展d的容错的流应用程序。
<li>
MLlib ** - 实现通用机器学习算法的API。
<li>GraphX - API和图形并行计算。

您可以通过使用交互式shell或通过提交应用程序,在本地运行Spark应用程序或在集群中运行分布式程序。 交互式运行Spark应用程序通常在数据探索阶段和临时分析期间执行。

要运行分布在集群中的应用程序,Spark需要一个集群管理器。 Cloudera支持两个集群管理器:YARN和Spark Standalone。 当在YARN上运行时,Spark应用程序进程由YARN ResourceManager和NodeManager角色管理。 当在Spark Standalone上运行时,Spark应用程序进程由Spark Master和Worker角色管理。

Unsupported Features

不支持以下Spark功能:
<li>Spark SQL:
- Thrift JDBC/ODBC server
- *Spark SQL CLI *
<li>Spark Dataset API
<li>SparkR
<li>GraphX
<li>Spark on Scala 2.11
<li>Mesos cluster manager

Related Information

<li>Managing Spark
<li>Monitoring Spark Applications
<li>Spark Authentication
<li>Spark Encryption
<li>Cloudera Spark forum
<li>Apache Spark documentation

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Spark之   Spark Streaming.. 下一篇spark IDE:   System memory..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目