版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_23617681/article/details/51194949
这两篇主要小结在hadoop学习过程中,Linux(ubuntu)下hadoop安装与环境配置+window下开发环境的配置。
这是第一篇,主要小结hadoop在ubuntu环境下的安装与配置。
不对之处,请指正。
一、hadoop介绍
hadoop时一个分布式开源计算框架。
是当前大数据领域最炙手可热的分布式计算框架。
有志于大数据方向的同学,不可能不知道hadoop。
hadoop主要为Linux而设计,运行在Linux系统上。
hadoop包括一系列的开源包,Hive,HBase,MapReduce。
包括机器学习包Mahout(现已成为Apache的顶级项目,与hadoop平级)。
hadoop是基于java的,所以必须依赖java的JDK。
hadoop支持java、python、scala,主要的开发语言还是scala,推荐的语言也是scala。
scala是基于java的语言,类似于scala.开发基于scala的程序必须有java JDK支持。所以,安装scala之前必须安装JDK。
二、hadoop安装配置
1、创建hadoop用户,并设置密码。用于hadoop程序运行。
2、添加hadoop用户管理员权限,并用hadoop登录Linux系统。方便后续管理操作。
3、安装ssh,配置无密码登录。
4、安装JDK,配置环境变量。
5、到官网下载、安装hadoop包。注意2.7以上版本才支持JDK8.通过命令tar命令解压.tar.gz。mv移动到制定目录,并重命名。
6、hadoop程序的三种运行方式,也可以理解为配置方式。
单机模式配置。不需要任何设置,直接可以运行java程序。
伪分布式配置。需要配置:core-site.xml、hdfs-site.xml等。具体参考网上其他文章。
全分布式配置。没有配置过。
7、运行程序,测试效果。
注意事项:hadoop运行程序有mapreduce和yarn两种方式。区别在于两者采用了不同的资源调度和管理方式。后者称为mapreduce2.0.
三、示例jar运行
通过命令运行./share文件夹下的example jar包,可以看到运行结果。并可以通过命令cat将运行结果拷贝至本地查看。