设为首页 加入收藏

TOP

Spark单机环境搭建并运行单次统计
2019-02-16 13:12:41 】 浏览:91
Tags:Spark 单机 环境 搭建 运行 单次 统计

Spark单机环境搭建并运行单次统计

Spark环境搭建

jdk1.7.0 hadoop-2.6.5 scala-2.11.4 spark-1.6.2

Hadoop环境安装

Hadoop环境安装请点击

Spark环境安装

  • 安装Scala(安装通Java,解压配置环境变量即可)
    下载地址

  • Spark下载
    访问Spark官网,然后选择对应版本安装包。

    2412598-2fda0ae6456c7844.png

  • 编辑spark-env.sh

mv spark-env.sh.template spark-env.sh
//在spark-env.sh追加如下内容:
export JAVA_HOME=/usr/local/bigdata/software/jdk1.7.0
export SCALA_HOME=/usr/local/bigdata/software/scala-2.11.4
export SPARK_MASTER_IP=hadoop1
export SPARK_WORKER_MEMORY=2G
  • 配置环境变量
export SPARK_HOMT=/usr/local/bigdata/software/spark-1.6.2
export PATH=$SPARK_HOMT/bin:$PATH
export PATH=$SPARK_HOMT/sbin:$PATH

运行单次统计

  • copy本地文件到HDFS
##vim test
you,jump
i,jump
you,jump
i,jump
you,jump
i,jump
##copy到HDFS
hdfs dfs -copyFromLocal /words
  • spark-shell进入命令行

  • 运行Scala统计单次例子

输入如下命令:
sc.textFile("hdfs://hadoop1:9000/words").flatMap(line => line.split(",")).map(word => (word,1)).reduceByKey(_+_).foreach(result => println(result._1 + " => " + result._2))
you => 1
结果:
you => 3
jump => 6
i => 3
  • 图示运行过程


    2412598-41e4a238cc30b457.png
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Spark Streaming源码解析 下一篇4.Apache Spark的工作原理

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目