设为首页 加入收藏

TOP

10分钟搭建Hadoop集群
2014-11-24 07:25:20 来源: 作者: 【 】 浏览:4
Tags:10分钟 搭建 Hadoop 集群
10分钟搭建Hadoop集群

1. 准备
3台Linux机器或虚拟机,安装了CentOS6/Redhat6/Ubuntu;
www.2cto.com
在所有机器上都安装了ssh和rsync,ubuntu安装例子:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
安装java。
2. 规划节点:
将其中一台机器作为master作为NameNode,另外两台作为DataNode,命名3台机器为:node1,node2,node3,这里将node1作为NameNode,node2,node3作为dataNode;
在所有机器的/etc/hosts中加入hostname配置信息,加入如下例子中的红色部分:
www.2cto.com
127.0.0.1 localhost
# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
192.168.1.12 node2
192.168.1.13 node3
3. 环境准备:
为方便管理和安装,在所有机器上创建同一个hadoop用户,以下所有操作都在此账户下进行。
设置无密码登陆,在node1上创建public密钥,并将public密钥copy到其他节点机器,并将public密钥导入到所有机器(包括本机):
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
导入密钥后,在node1上,分别用ssh localhost;ssh node1;ssh node2;ssh node3测试密钥安装正确,并能无密码登陆。

规划hadoop数据目录,在所有机器上创建如下目录:

$ mkdir ~/data
$ mkdir ~/data/hdfs
$ mkdir ~/data/hdfs/name #namenode
$ mkdir ~/data/hdfs/data #datanode
$ mkdir ~/data/hdfs/tmp #临时文件夹
下载最新的stable Hadoop到/home/hadoop/:curl http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.0.4/hadoop-1.0.4-bin.tar.gz
解压:tar -zxvf hadoop-1.0.4-bin.tar.gz

修改配置文件:
hadoop-1.0.4/conf/hadoop-env.sh 中指定JAVA_HOME:

# The java implementation to use. Required.
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
export JAVA_HOME=/opt/java/jdk1.6.0_24
# Extra Java CLASSPATH elements. Optional.
# export HADOOP_CLASSPATH=
hadoop-1.0.4/conf/core-site.xml

hadoop.tmp.dir
/home/hadoop/data/hdfs/tmp
fs.default.name
hdfs://node1:9000
hadoop-1.0.4/conf/hdfs-site.xml

dfs.name.dir
/home/hadoop/data/hdfs/name
dfs.data.dir
/home/hadoop/data/hdfs/data
hadoop-1.0.4/conf/mapred-site.xml

mapred.job.tracker
node1:9001
mapreduce.jobtracker.system.dir
/home/hadoop/data/hdfs/mapred/system
mapreduce.cluster.local.dir
/home/hadoop/data/hdfs/mapred/local
hadoop-1.0.4/conf/masters
node1
hadoop-1.0.4/conf/slaves
node2
node3
4. 同步hadoop所有软件和配置到其他机器
创建目标机器列表文件,并加入目标机器名:/home/hadoop/servers
node2
node3
创建同步脚本:/home/hadoop/cp_hadoop
for host in `cat servers`
do
echo ------------------------------------------------------------------
echo rsync host: $host
ssh $host 'rm -fr /home/hadoop/hadoop-1.0.4'
rsync -avz /home/hadoop/hadoop-1.0.4 $host:/home/hadoop/hadoop-1.0.4

done
执行同步脚本: $ ./cp_hadoop
www.2cto.com
5. 启动所有服务:
$ cd /home/hadoop/hadoop-1.0.4/bin
$ ./start_all.sh
6. 访问web界面验证安装:
NameNode - http://node1:50070/
JobTracker - http://node2:50030/
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇使用postgreSQL+bamboo搭建比luce.. 下一篇批量分配空表空间

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

·PostgreSQL 索引 - (2025-12-25 22:20:43)
·MySQL Node.js 连接 (2025-12-25 22:20:41)
·SQL 撤销索引、表以 (2025-12-25 22:20:38)
·Linux系统简介 (2025-12-25 21:55:25)
·Linux安装MySQL过程 (2025-12-25 21:55:22)