版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011734144/article/details/60773786
首先看下InputFormat接口的代码
public interface InputFormat<K, V> {
InputSplit[] getSplits(JobConf var1, int var2) throws IOException;
RecordReader<K, V> getRecordReader(InputSplit var1, JobConf var2, Reporter var3) throws IOException;
}
显然,该接口主要负责实现两个功能:
1. InputSplit负责数据切割,即对输入的数据按照一定的方式切割,它定义了分割的长度和位置,分割出来的每个片段的长度决定了每个mapper任务的大小,而分割的位置决定了将由哪个服务器来执行这个任务,InputSplit按照长度切分出来的每个片段会分别交给一个mapper任务处理,而切分出来的位置决定了哪个机器来执行该mapper任务
2. RecordReader负责读取记录,即从各自要处理的数据片段中逐行读取数据,并以键值对的形式提交给mapper任务
所以框架为每个InputSplit的结果产生一个Map任务
OutputFormat接口代码如下
public interface OutputFormat<K, V> {
RecordWriter<K, V> getRecordWriter(FileSystem var1, JobConf var2, String var3, Progressable var4) throws IOException;
void checkOutputSpecs(FileSystem var1, JobConf var2) throws IOException;
}
OutputFormat描述Map/Reduce作业的输出样式。
Map/Reduce框架根据作业的OutputFormat来:
- 检验作业的输出,例如检查输出路径是否已经存在。即如上的checkOutputSpecs方法
- 提供一个RecordWriter的实现,用来输出作业结果,即输出<key,value>对到输出文件。 输出文件保存在FileSystem上。
TextOutputFormat是默认的OutputFormat