在上面的例子里,mapper和reducer都是可执行文件,它们从标准输入读入数据(一行一行读), 并把计算结果发给标准输出。Streaming工具会创建一个Map/Reduce作业, 并把它发送给合适的集群,同时监视这个作业的整个执行过程。
如 果一个可执行文件被用于mapper,则在mapper初始化时, 每一个mapper任务会把这个可执行文件作为一个单独的进程启动。 mapper任务运行时,它把输入切分成行并把每一行提供给可执行文件进程的标准输入。 同时,mapper收集可执行文件进程标准输出的内容,并把收到的每一行内容转化成key/value对,作为mapper的输出。默认情况下,一行中第一个tab之前的部分作为key,之后的(不包括tab)作为value。
如果没有tab,整行作为key值,value值为null。不过,这可以定制,在下文中将会讨论如何自定义key和value的切分方式。
如果一个可执行文件被用于reducer,每个reducer任务会把这个可执行文件作为一个单独的进程启动。 Reducer任务运行时,它把输入切分成行并把每一行提供给可执行文件进程的标准输入。同时,reducer收集可执行文件进程标准输出的内容,并把每一行内容转化成key/value对,作为reducer的输出。默认情况下,一行中第一个tab之前的部分作为key,之后的(不包括tab)作为value。在下文中将会讨论如何自定义key和value的切分方式。
这是Map/Reduce框架和streaming mapper/reducer之间的基本通信协议。
用户也可以使用java类作为mapper或者reducer。上面的例子与这里的代码等价:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc
任何可执行文件都可以被指定为mapper/reducer。这些可执行文件不需要事先存放在集群上; 如果在集群上还没有,则需要用-file选项让framework把可执行文件作为作业的一部分,一起打包提交。例如:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper myPythonScript.py \
-reducer /bin/wc \
-filemyPythonScript.py
Hadoop streaming框架默认情况下会以'\t'作为分隔符,将每行第一个'\t'之前的部分作为key,其余内容作为value,如果没有'\t'分隔 符,则整行作为key;这个key\tvalue对又作为reduce的输入。hadoop 提供配置供用户自主设置分隔符。
-D stream.map.output.field.separator \#设置map输出中key和value的分隔符
-D stream.num.map.output.key.fields \#设置map程序分隔符的位置,该位置之前的部分作为key,之后的部分作为value
-D map.output.key.field.separator \#设置map输出中key内部的分割符
-D num.key.fields.for.partition\#指定分桶时,key按照分隔符切割后,其中用于分桶key所占的列数(配合-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
使用)
-D stream.reduce.output.field.separator \#设置reduce输出中key和value的分隔符
-D stream.num.reduce.output.key.fields #设置reduce程序分隔符的位置
一个实用的Partitioner类
(二次排序,-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 选项)
Hadoop 有一个工具类org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner, 它在应用程序中很有用。Map/reduce框架用这个类切分map的输出, 切分是基于key值的前缀,而不是整个key。例如:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer org.apache.hadoop.mapred.lib.IdentityReducer \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \
-jobconf stream.map.output.field.separator=. \
-jobconf stream.num.map.output.key.fields=4 \
-jobconf map.output.key.field.separator=. \
-jobconf num.key.fields.for.partition=2 \
-jobconf mapred.reduce.tasks=12
其中,-jobconf stream.map.output.field.separator=.和-jobconf stream.num.map.output.key.fields=4是前文中的例子。Streaming用这两个变量来得到mapper的key/value对。
上面的Map/Reduce 作业中map输出的key一般是由“.”分割成的四块。但是因为使用了-jobconf num.key.fields.for.partition=2选项,所以Map/Reduce框架使用key的前两块来切分map的输出。其中,-jobconf
map.output.key.field.separator=.指定了这次切分使用的key的分隔符。这样可以保证在所有key/value对中, key值前两个块值相同的所有key被分到一组,分配给一个reducer。
这种高效的方法等价于指定前两块作为主键,后两块作为副键。 主键用于切分块,主键和副键的组合用于排序。
本地单机调试:
cat tt | sh mapper.sh | sort -k1 | sh reducer.sh
其中tt为初始map输入文件,sort -k1 指定partition的key field=1,如果指定的key field=2可以使用sort -k1,1 -k2,2