hadoop性能优化――机架感知(二)

2014-11-24 14:27:49 · 作者: · 浏览: 123

标签: hadoop 性能优化机架感知

置信息为“/rack1/datanode1”,那么它所处的层次就为2，其余类推。

b)得到两个node的层次后，会沿着每个node所处的拓朴树中的位置向上查找，如“/rack1/datanode1”的上一级就是“/rack1”，此时两个节点之间的距离加1，两个node分别同上向上查找，直到找到共同的祖先节点位置，此时所得的距离数就用来代表两个节点之间的距离。所以，如上图所示，node1和node2之间的距离就为4.

5.当根据“距离”排好序的datanode节点列表返回给DFSClient以后，DFSClient便会创建Block OutputStream，并想这次block写入pipeline中的第一个节点（最近的节点）开始写入block数据。

6.写完第一个block以后，依次按照datanode列表中的次远的node进行写入，直到最后一个block写入成功，DFSClient返回成功，该block写入操作结束。

通过以上策略，namenode在选择数据块的写入datanode列表时，就充分考虑到了将block副本分散在不同机架下，并同时尽量的避免了之前描述的网络多于开销。对配置了机架信息的Hadoop HDFS启动instance上传一个文件，其block信息如下：在配置了机架信息的情况下，为了减少机架间的网络流量，namenode会将其中两个副本写在同一个机架上，并且为了尽量做到容错，会将第三个block写道另一个机架上的datanode上。

首页上一页 1 2 下一页尾页 2/2/2

上一篇 postgresql数据类型转换

下一篇 rebuild index VS. rebuild index..