HDFS（六）—— HDFS 文件下载的过程 - Hdfs - 程序员开发

设为首页加入收藏

编程入门

首页

C语言

C++开发

Python

Java

AI大数据: Hadoop

Hdfs

Spark

Hive

HBase

Flume

Kfaka

操作系统: Win

Linux

OS X

其它

windows编..

linux编程..

网络编程

热门语言: GO

PHP

R语言

.Net

Swift

Ruby

Scala

等级考试: C语言

C++

JAVA

面试

当前位置：

首页 -> 大数据 -> Hdfs

TOP

HDFS（六）—— HDFS 文件下载的过程

2018-12-13 16:11:43 【大中小】浏览:27次

Tags：HDFS 文件下载过程

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/a909301740/article/details/84454520

HDFS文件下载过程

一、客户端发出下载文件的请求

客户端执行hdfs dfs -get /movie/a.avi命令请求 HDFS 下载文件到本地。

二、DFSClient 接收请求，创建 DistributedFileSystem 对象

DFSClient 接收下载文件的请求，并且创建 DistributedFileSystem 对象。

三、DistributedFileSystem 建立与 NameNode 的 RPC 通信，得到 NameNodeProxies

DistributedFileSystem 建立与 NameNode 的 RPC 通信，并且得到 NameNode 的代理对象 NameNodeProxies。

四、DistributedFileSystem 通过代理对象获取文件的元信息

DistributedFileSystem 通过代理对象去 HDFS 上查找文件的元信息。

五、在内存中查找文件的元信息

数据的元信息是优先存储在内存中的，所以 NameNode 会优先去内存中查找。

为了保证元信息的查找速率，通常我们会使用 NameNode 的联盟对内存容量进行扩展。

六、在 fsimage 文件中查找文件的元信息

如果在内存中找到了元信息，就直接返回，在内存中没有找到就会去 fsimage 文件中查找。

七、返回文件的元信息

NameNode 将找到的元信息返给 DFSClient。

八、创建输入流 FSDataInputStream

DFSClient 创建 FSDataInputStream 对象建立与 HDFS 的 IO 流。

// 打开一个输入流 <------HDFS
InputStream in = client.open(new Path("/tools/stt.txt"));

九、下载数据块

通过 IO 流循环去 DataNode 下载数据。

HDFS 会维护一个 DataNode 的失败列表，记录哪些 DataNode 坏掉了，客户端在访问数据的时候就不会去这些 DataNode 上访问。


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：sqoop 把 hdfs 和关系型数..	下一篇：java hadoop hdfs 上写文..

最新文章

centos-7 部署hadoop2.5.1 >>..

centos-7 部署hadoop2.5.1 >>..

Hadoop的转载

ganglia安装和配置

java查漏补缺（三）

热门文章

大数据笔试题大全

flink使用BucketingSink将文件写入h..

使用python中的pyhdfs连接HDFS进行..

HDFS高可用（HA）之ZKFC详解

HDFS查看文件的前几行-后几行-行数

Hot 文章

大数据笔试题大全

flink使用BucketingSink将文件写入h..

使用python中的pyhdfs连接HDFS进行..

HDFS高可用（HA）之ZKFC详解

HDFS查看文件的前几行-后几行-行数

Python

813

Django框架系列目录

649

创建Anaconda虚拟Pyt

1247

Python获取主目录的

883

Python中跨越多个文

538

chatgpt使用python写

735

一条爬虫抓取一个小

606

Python教程：sys.std

667

Python教程(13)——P

851

Docker安装配置Jupyt

733

【matplotlib基础】-

C 语言

532

C语言入坑总结

623

C数据结构-线性表之顺序表

1386

Programming abstractions in..

548

C语言内存布局

832

最全的李慧芹APUE-标准IO笔记

745

alog一个日志库

599

1.1.初识STM32及新建工程

799

codeblock安装及汉化教程

616

东方博宜OJ1000 熟悉一下Onli..

1344

关于指针与引用传递的效率问题

C++基础

1217

KMP 字符串匹配学习笔记

896

2.10 PE结构：重建重定位表结..

573

【Qt6】列表模型——抽象基类

695

2.12 PE结构：实现PE字节注入

621

561

2.14 PE结构：地址之间的转换

612

4.1 应用层Hook挂钩原理分析

973

使用Vulkan-Loader将ncnn代码..

635

4.3 IAT Hook 挂钩技术

545

C++ 学习笔记、01 | 开发简单..

大数据基础

1011

多线程：线程的同步

574

vertica-->kafka-

896

651

解决android studio

585

Kafka史上最详细原理

616

Error while fetchin

754

【Kafka】安装与快速

490

650

flume读取日志数据写

640

Authentication plug

linux编程基础

711

如何在Python中过滤字符串列表

723

如何在Python中读写文件

740

初识Lambda表达式

795

深入理解Python中的列表推导..

1023

如何在Python中执行外部命令

1079

设计模式之单例模式理解

593

跟我学Python GUI编程系列 - ..

1356

21道并发编程面试题

606

深入理解 Hadoop 序列化

979

CAS无锁机制深入理解

C/C++面试题目

1217

KMP 字符串匹配学习

573

【Qt6】列表模型——

896

2.10 PE结构：重建重

621

695

2.12 PE结构：实现PE

561

2.14 PE结构：地址之

973

使用Vulkan-Loader将

612

4.1 应用层Hook挂钩

635

4.3 IAT Hook 挂钩技

545

C++ 学习笔记、01 |

Copyright@https://www.cppentry.com all rights reserved 粤ICP备13067022号-3