hadoop运行环境安装与配置+hadoop开发环境配置（一） - Hadoop

TOP

hadoop运行环境安装与配置+hadoop开发环境配置（一）

2019-04-18 00:38:59 【大中小】浏览:60次

这两篇主要小结在hadoop学习过程中，Linux(ubuntu)下hadoop安装与环境配置+window下开发环境的配置。

这是第一篇，主要小结hadoop在ubuntu环境下的安装与配置。

不对之处，请指正。

一、hadoop介绍

hadoop时一个分布式开源计算框架。

是当前大数据领域最炙手可热的分布式计算框架。

有志于大数据方向的同学，不可能不知道hadoop。

hadoop主要为Linux而设计，运行在Linux系统上。

hadoop包括一系列的开源包，Hive，HBase，MapReduce。

包括机器学习包Mahout（现已成为Apache的顶级项目，与hadoop平级）。

hadoop是基于java的，所以必须依赖java的JDK。

hadoop支持java、python、scala，主要的开发语言还是scala，推荐的语言也是scala。

scala是基于java的语言，类似于scala.开发基于scala的程序必须有java JDK支持。所以，安装scala之前必须安装JDK。

二、hadoop安装配置

1、创建hadoop用户，并设置密码。用于hadoop程序运行。

2、添加hadoop用户管理员权限，并用hadoop登录Linux系统。方便后续管理操作。

3、安装ssh，配置无密码登录。

4、安装JDK，配置环境变量。

5、到官网下载、安装hadoop包。注意2.7以上版本才支持JDK8.通过命令tar命令解压.tar.gz。mv移动到制定目录，并重命名。

6、hadoop程序的三种运行方式，也可以理解为配置方式。

单机模式配置。不需要任何设置，直接可以运行java程序。

伪分布式配置。需要配置：core-site.xml、hdfs-site.xml等。具体参考网上其他文章。

全分布式配置。没有配置过。

7、运行程序，测试效果。

注意事项：hadoop运行程序有mapreduce和yarn两种方式。区别在于两者采用了不同的资源调度和管理方式。后者称为mapreduce2.0.

三、示例jar运行

通过命令运行./share文件夹下的example jar包，可以看到运行结果。并可以通过命令cat将运行结果拷贝至本地查看。