hadoop学习（六）WordCount示例深度学习MapReduce过程（1） - 数据库编程

I 1 You 1 am 1 are 1 not 1 zhangzhen 2 cat: File does not exist: /user/zhangzhen/put/_logs zhangzhen@ubuntu:~/software/hadoop-1.2.1$

上面的结果，就基本可以证明Hadoop搭建是没有问题的。执行hadoop-examples-1.2.1.jar程序，其实是把java程序编译打成一个jar文件，然后直接运行，就可以得到结果。其实这也是以后我们运行java程序的一个方法。把程序编译打包上传，然后运行。还有另一种方面，eclipse连接Hadoop，可以联机测试。两种方法各有优点，不再详述。

运行的程序，我们可以在Hadoop的安装目录中找到源文件，WourdCount.java源代码。

zhangzhen@ubuntu:~/software/hadoop-1.2.1/src/examples/org/apache/hadoop/examples$ pwd 
/home/zhangzhen/software/hadoop-1.2.1/src/examples/org/apache/hadoop/examples 
zhangzhen@ubuntu:~/software/hadoop-1.2.1/src/examples/org/apache/hadoop/examples$

下面是把源代码拷到eclipse程序中，利用此代码（并未修改）测试一下实际的数据并得到结果。（注释是对上以一行的解释）

import java.io.IOException;  
import java.util.StringTokenizer;  
  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.IntWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.Reducer;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
import org.apache.hadoop.util.GenericOptionsParser;  
  
public class Wordcount {  
  
  public static class TokenizerMapper   
       extends Mapper{ 
//规定map中用到的数据类型，这里的Text相当于jdk中的String IntWritable相当于jdk的int类型，
//这样做的原因主要是为了hadoop的数据序化而做的。 
      
    private final static IntWritable one = new IntWritable(1);
//声时一个IntWritable变量，作计数用，每出现一个key，给其一个value=1的值  
    private Text word = new Text();//用来暂存map输出中的key值，Text类型的  
        
    public void map(Object key, Text value, Context context  
                    ) throws IOException, InterruptedException { 
//这就是map函数，它是和Mapper抽象类中的相对应的，此处的Object key,Text value的类型和上边的Object,
//Text是相对应的，而且最好一样，不然的话，多数情况运行时会报错。
      StringTokenizer itr = new StringTokenizer(value.toString());
//Hadoop读入的value是以行为单位的，其key为该行所对应的行号，因为我们要计算每个单词的数目，
//默认以空格作为间隔，故用StringTokenizer辅助做字符串的拆分，也可以用string.split("")来作。
      while (itr.hasMoreTokens()) { //遍历一下每行字符串中的单词 
        word.set(itr.nextToken());  //出现一个单词就给它设成一个key并将其值设为1
        context.write(word, one);   //输出设成的key/value值
//上面就是map打散的过程
      }  
    }  
  }  
    
  public static class IntSumReducer   
       extends Reducer {
//reduce的静态类，这里和Map中的作用是一样的，设定输入/输出的值的类型
    private IntWritable result = new IntWritable();  
  
    public void reduce(Text key, Iterable values,   
                       Context context  
                       ) throws IOException, InterruptedException {  
      int sum = 0;  
      for (IntWritable val : values) { 
 //由于map的打散，这里会得到如，{key,values}={"hello",{1,1,....}},这样的集合
        sum += val.get();               
//这里需要逐一将它们的value取出来予以相加，取得总的出现次数，即为汇和
      }  
      result.set(sum);                  //将values的和取得，并设成result对应的值
      context.write(key, result);
//此时的key即为map打散之后输出的key，没有变化，变化的时result,以前得到的是一个数字的集合，
//已经给算出和了，并做为key/value输出。  
    }  
  }  
  
  public static void main(String[] args) throws Exception {  
    Configuration conf = new Configuration();  //取得系统的参数
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();  
    if (otherArgs.length != 2) {               
 //判断一下命令行输入路径/输出路径是否齐全，即是否为两个参数
      System.err.println("Usage: wordcount  ");  
      System.exit(2);                           //若非两个参数，即退出
    }  
    Job job = new Job(conf, "word count");      
//此程序的执行，在hadoop看来是一个Job，故进行初始化job操作
    job.setJarByClass(Wordcount.class);        
 //可以认为成，此程序要执行MyWordCount.class这个字节码文件
    job.

hadoop学习（六）WordCount示例深度学习MapReduce过程（1）(二)