设为首页 加入收藏

TOP

Apache Spark 之 入门笔记
2018-11-13 15:20:43 】 浏览:59
Tags:Apache Spark 入门 笔记

Spark 是什么 ## [草稿 - 待整理]

Spark is a java virtual machine(JVM) based distributed data processing engine that scales. And it is fast compare to other data processing framework
Spark的内核是一套通用的执行引擎。Spark平台基于该引擎的其他功能包括:
Spark Core is the general execution engine for the Spark platform that other functionality is built atop
Mesos文献

  • 高速内存计算能力
    - in-memory computing capabilities deliver speed
  • 广泛的用例支持
    - general execution model supports wide variety of use cases
  • 易于开发
    - ease of development – native APIs in Java, Scala, Python (+ SQL, Clojure, R)
Situation Trade-off Tech
Cheap Memory Recompute RDD
Cheap Storage Replicate DFS
Cheap Network Reference URI

RDD: Resilient Distributed Dataset
DFS:Distributed File System

Spark 优势

  • 比Hadoop MapReduce快100倍
  • 利用了工作节点的主要内存进行处理
  • 防止了磁盘不必要的I/O运行
  • 在应用程序层串联任务的能力
  • 最小化磁盘书写数量

Spark 效率

  • 使用DAG(Directed Acyclic Graph) 有向无环图

Spark 安装

Scala, Python, R –> REPL

—————————————————————————–

Spark 集成

这里写图片描述
- Databricks Cloud
-这里写图片描述
- Spark + Hadoop + Hbase + etc.
这里写图片描述
- Spark + PyData
- Kafka + Spark + Cassandra
- Spark + ElasticSearch
- Spark + Play
- Spark +Mesos
-

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇spark(6)-spark RDD(course14) 下一篇Spark性能相关参数配置及原理

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目