hadoop读取文件流程分析 - Hadoop

TOP

hadoop读取文件流程分析

2019-04-18 00:38:38 【大中小】浏览:56次

在读取HDFS上的文件时，Client、NameNode以及DataNode都会相互关联。按照一定的顺序来实现读取这一过程，读取过程如下图所示：

　　通过上图，读取HDFS上的文件的流程可以清晰的知道，Client通过实例打开文件，找到HDFS集群的具体信息（我们需要操作的是 ClusterA，还是ClusterB，需要让Client端知道），这里会创建一个输入流，这个输入流是连接DataNode的桥梁，相关数据的读取 Client都是使用这个输入流来完成的，而在输入流创建时，其构造函数中会通过一个方法来获取NameNode中DataNode的ID和Block的位置信息。Client在拿到DataNode的ID和Block位置信息后，通过输入流去读取数据，读取规则按照“就近原则”，即：和最近的 DataNode建立联系，Client反复调用read方法，并将读取的数据返回到Client端，在达到Block的末端时，输入流会关闭和该 DataNode的连接，通过向NameNode获取下一个DataNode的ID和Block的位置信息（若对象中为缓存Block的位置信息，会触发此步骤，否则略过）。然后拿到DataNode的ID和Block的位置信息后，在此连接最佳的DataNode，通过此DataNode的读数据接口，来获取数据。

　　另外，每次通过向NameNode回去Block信息并非一次性获取所有的Block信息，需得多次通过输入流向NameNode请求，来获取下一组Block得位置信息。然而这一过程对于Client端来说是透明的，它并不关系是一次获取还是多次获取Block的位置信息，Client端在完成数据的读取任务后，会通过输入流的close()方法来关闭输入流。

　　在读取的过程当中，有可能发生异常，如：节点掉电、网络异常等。出现这种情况，Client会尝试读取下一个Block的位置，同时，会标记该异常的DataNode节点，放弃对该异常节点的读取。另外，在读取数据的时候会校验数据的完整性，若出现校验错误，说明该数据的Block已损坏，已损坏的信息会上报给NameNode，同时，会从其他的DataNode节点读取相应的副本内容来完成数据的读取。Client端直接联系 NameNode，由NameNode分配DataNode的读取ID和Block信息位置，NameNode不提供数据，它只处理Block的定位请求。这样，防止由于Client的并发数据量的迅速增加，导致NameNode成为系统“瓶颈”（磁盘IO问题）。


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：hadoop中的join原理	下一篇：Hadoop Archives对小文件的处理