Hadoop作业性能指标及参数调优实例(二)Hadoop作业性能调优7个建议(二)

2015-11-21 01:43:23 · 作者: · 浏览: 7
名称已更新,比如Hadoop 1中dfs.block.size在Hadoop2中更新为dfs.blocksize.

?

eBay Eagle有关Map和Reduce数量的标杆:

Map作业满足以下条件之一,认为Map数量太多:

-输入 < 5 MB且用时 < 30秒

-用时 < 10秒

Map作业满足以下条件之一,认为Map数量太少:

-输入 > 1GB

-用时 > 10分钟

?

Reduce作业满足以下条件之一,认为Reduce数量不合理:

-输入 < 256MB 且总用时(包括Shuffle) < 5分钟 且 输出 < 256MB

-输入 > 10GB 且总用时(包括Shuffle) > 30分钟

-总用时(包括Shuffle) < 60秒

-总用时(包括Shuffle) > 1小时 且 用时(不包括Shuffle) > 30分钟

-输入 < 10MB 且用时(不包括Shuffle) < 5分钟 且 输出 < 2GB

-输出 > 10GB 且用时(不包括Shuffle) > 30分钟

?

Reduce数量推荐方案:

Reduce number=Max(input / 3 G, output / 2 GB,reduceTime / 10 minute)

指定Reduce数量的作业参数:

mapreduce.job.reduces=

?