设为首页 加入收藏

TOP

在命令行中运行Hadoop自带的WordCount程序
2018-12-13 12:14:09 】 浏览:48
Tags:命令 运行 Hadoop 自带 WordCount 程序

Hadoop集群搭建完之后,接下来就需要开始尝试去使用它啦。我们可以在这个集群上运行Hadoop的“Hello World程序”——WordCount单词计数。这个程序的代码在我们下载安装Hadoop的时候就已经打包下载好了,我们只需要直接去使用就可以了。

(一)、启动hdfs进程服务:

进入hadoop的目录中:cd Hadoop/hadoop-2.7.7

进入相应目录后启动HDFS的进程服务

启动后界面如下:

通过jps查看HDFS是否确实已经被启动(jps是一个java程序,它的作用是查看当前Java虚拟机运行着哪些程序)

在图中我们可以看到 DataNode、NameNode和SecondaryNameNode这三个组成HDFS系统的进程,说明HDFS系统已经成功启动。

(二)、使用HDFS服务运行WordCount程序

1.在云端创建一个/data/input的文件夹结构
bin/hdfsdfs-mkdir-p/data/input

2.在本地创建一个my_wordcount.txt
touchmy_wordcount.txt
3.编辑my_wordcount.txt文件,输入一些字符
nano my_wordcount.txt

4.把本地的my_wordcount.txt文件上传到云端,由主机进行文件的分布式存储。
bin/hdfsdfs-putmy_wordcount.txt/data/input

(这个可以去localhost:9000的可视化界面中查看编辑。但是会特别卡,不建议去可视化界面看。)
5.查看云端的/data/input文件夹下面有哪些文件
bin/hdfsdfs-ls/data/input

我们会看到其中有个my_wordcount.txt文件。说明我们刚刚已经成功把my_wordcount.txt文件传输到云端了。

6.运行share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar这个java程序,调用wordcount方法。/data/input/my_wordcount.txt是输入参数,待处理的文件/data/output/my_wordcount是输出参数,保存处理后的数据的文件夹名字
bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jarwordcount/data/input/my_wordcount.txt /data/out/my_wordcount


7.查看云端的/data/output/my_wordcount/part-r-00000文件。
bin/hdfsdfs-cat/data/out/my_wordcount/part-r-00000

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Hadoop_Hdfs ACL 权限控制详解 下一篇hadoop(一)、Linux之CentOS7.5安..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目