设为首页 加入收藏

TOP

Hadoop系列之InputFormat,OutputFormat用法
2019-03-14 12:40:53 】 浏览:54
Tags:Hadoop 系列 InputFormat OutputFormat 用法
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011734144/article/details/60773786

首先看下InputFormat接口的代码

public interface InputFormat<K, V> {
    InputSplit[] getSplits(JobConf var1, int var2) throws IOException;

    RecordReader<K, V> getRecordReader(InputSplit var1, JobConf var2, Reporter var3) throws IOException;
}

显然,该接口主要负责实现两个功能:

1. InputSplit负责数据切割,即对输入的数据按照一定的方式切割,它定义了分割的长度和位置,分割出来的每个片段的长度决定了每个mapper任务的大小,而分割的位置决定了将由哪个服务器来执行这个任务,InputSplit按照长度切分出来的每个片段会分别交给一个mapper任务处理,而切分出来的位置决定了哪个机器来执行该mapper任务

2. RecordReader负责读取记录,即从各自要处理的数据片段中逐行读取数据,并以键值对的形式提交给mapper任务


所以框架为每个InputSplit的结果产生一个Map任务


OutputFormat接口代码如下

public interface OutputFormat<K, V> {
    RecordWriter<K, V> getRecordWriter(FileSystem var1, JobConf var2, String var3, Progressable var4) throws IOException;

    void checkOutputSpecs(FileSystem var1, JobConf var2) throws IOException;
}

OutputFormat描述Map/Reduce作业的输出样式。

Map/Reduce框架根据作业的OutputFormat来:

  1. 检验作业的输出,例如检查输出路径是否已经存在。即如上的checkOutputSpecs方法
  2. 提供一个RecordWriter的实现,用来输出作业结果,即输出<key,value>对到输出文件。 输出文件保存在FileSystem上。
TextOutputFormat是默认的OutputFormat

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇关于Eclipse安装hadoop插件后没有.. 下一篇Hadoop大数据平台架构与实践

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目