Hadoop系列之InputFormat,OutputFormat用法 - Hadoop - 程序员开发

设为首页加入收藏

编程入门

首页

C语言

C++开发

Python

Java

AI大数据: Hadoop

Hdfs

Spark

Hive

HBase

Flume

Kfaka

操作系统: Win

Linux

OS X

其它

windows编..

linux编程..

网络编程

热门语言: GO

PHP

R语言

.Net

Swift

Ruby

Scala

等级考试: C语言

C++

JAVA

面试

当前位置：

首页 -> 大数据 -> Hadoop

TOP

Hadoop系列之InputFormat,OutputFormat用法

2019-03-14 12:40:53 【大中小】浏览:54次

Tags：Hadoop 系列 InputFormat OutputFormat 用法

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u011734144/article/details/60773786

首先看下InputFormat接口的代码

public interface InputFormat<K, V> {
    InputSplit[] getSplits(JobConf var1, int var2) throws IOException;

    RecordReader<K, V> getRecordReader(InputSplit var1, JobConf var2, Reporter var3) throws IOException;
}

显然，该接口主要负责实现两个功能：

1. InputSplit负责数据切割，即对输入的数据按照一定的方式切割，它定义了分割的长度和位置，分割出来的每个片段的长度决定了每个mapper任务的大小，而分割的位置决定了将由哪个服务器来执行这个任务，InputSplit按照长度切分出来的每个片段会分别交给一个mapper任务处理，而切分出来的位置决定了哪个机器来执行该mapper任务

2. RecordReader负责读取记录，即从各自要处理的数据片段中逐行读取数据，并以键值对的形式提交给mapper任务

所以框架为每个InputSplit的结果产生一个Map任务

OutputFormat接口代码如下

public interface OutputFormat<K, V> {
    RecordWriter<K, V> getRecordWriter(FileSystem var1, JobConf var2, String var3, Progressable var4) throws IOException;

    void checkOutputSpecs(FileSystem var1, JobConf var2) throws IOException;
}

OutputFormat描述Map/Reduce作业的输出样式。

Map/Reduce框架根据作业的OutputFormat来：

检验作业的输出，例如检查输出路径是否已经存在。即如上的checkOutputSpecs方法
提供一个RecordWriter的实现，用来输出作业结果，即输出<key,value>对到输出文件。输出文件保存在FileSystem上。

TextOutputFormat是默认的OutputFormat


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：关于Eclipse安装hadoop插件后没有..	下一篇：Hadoop大数据平台架构与实践

最新文章

azkaban-web-start.sh启动时出现Tab..

Hadoop提交作业------>hadoop工..

结合案例讲解MapReduce重要知识点 ..

Hadoop pipes初学笔记

热门文章

Hadoop 中web服务的REST API介绍

ThingsBoard源码分析 —— 调试环境..

使用Eclipse插件连接配置Mapreduce..

解决Exception in thread "mai..

hadoop和spark比较

Hot 文章

Hadoop 中web服务的REST API介绍

ThingsBoard源码分析 —— 调试环境..

使用Eclipse插件连接配置Mapreduce..

解决Exception in thread "mai..

hadoop和spark比较

Python

815

Django框架系列目录

653

创建Anaconda虚拟Pyt

1250

Python获取主目录的

888

Python中跨越多个文

541

chatgpt使用python写

741

一条爬虫抓取一个小

612

Python教程：sys.std

671

Python教程(13)——P

855

Docker安装配置Jupyt

736

【matplotlib基础】-

C 语言

536

C语言入坑总结

628

C数据结构-线性表之顺序表

1390

Programming abstractions in..

551

C语言内存布局

837

最全的李慧芹APUE-标准IO笔记

748

alog一个日志库

602

1.1.初识STM32及新建工程

804

codeblock安装及汉化教程

621

东方博宜OJ1000 熟悉一下Onli..

1348

关于指针与引用传递的效率问题

C++基础

1220

KMP 字符串匹配学习笔记

900

2.10 PE结构：重建重定位表结..

577

【Qt6】列表模型——抽象基类

698

2.12 PE结构：实现PE字节注入

625

566

2.14 PE结构：地址之间的转换

617

4.1 应用层Hook挂钩原理分析

978

使用Vulkan-Loader将ncnn代码..

640

4.3 IAT Hook 挂钩技术

549

C++ 学习笔记、01 | 开发简单..

大数据基础

1015

多线程：线程的同步

576

vertica-->kafka-

899

654

解决android studio

592

Kafka史上最详细原理

618

Error while fetchin

757

【Kafka】安装与快速

493

653

flume读取日志数据写

645

Authentication plug

linux编程基础

717

如何在Python中过滤字符串列表

725

如何在Python中读写文件

745

初识Lambda表达式

799

深入理解Python中的列表推导..

1026

如何在Python中执行外部命令

1083

设计模式之单例模式理解

598

跟我学Python GUI编程系列 - ..

1362

21道并发编程面试题

610

深入理解 Hadoop 序列化

983

CAS无锁机制深入理解

C/C++面试题目

1220

KMP 字符串匹配学习

577

【Qt6】列表模型——

900

2.10 PE结构：重建重

625

698

2.12 PE结构：实现PE

566

2.14 PE结构：地址之

978

使用Vulkan-Loader将

617

4.1 应用层Hook挂钩

640

4.3 IAT Hook 挂钩技

549

C++ 学习笔记、01 |

Copyright@https://www.cppentry.com all rights reserved 粤ICP备13067022号-3