为什么大数据工程师一定要学习Hadoop，很多必备知识点你不了解 - Hadoop

TOP

为什么大数据工程师一定要学习Hadoop，很多必备知识点你不了解

2019-04-14 12:38:24 【大中小】浏览:63次

大数据就是多，就是多。原来的设备存不下、算不动。

当前是个人、是个公司都在说自己搞大数据，每天没有几个PB的数据入库，每天没有几个TB的分析数据产出敢说自己是大数据？乘着大数据噱头之风，我们还是要看一下大数据所运用的工具对于我们是否有用，当我们目前日数据产生量在10W级别时，借鉴当前分布式数据库的经验，采用Hbase集群，Hadoop作为hbase的基础，被提到首要位置做研究。

Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

想要系统性的跟行业大牛一起学习大数据开发，免费获取大数据学习资料的小伙伴们可以关注我，你会找到组织的

Hadoop核心

Hadoop的核心就是HDFS和MapReduce，而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如HBase、Hive等，这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop，就必须知道HDFS和MapReduce是什么？

HDFS: 为海量的数据提供了存储

MapReduce:为海量的数据提供了计算

HDFS

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。

HDFS的设计特点是：

1、大数据文件

2、文件分块存储

3、流式数据访问

4、廉价硬件

5、硬件故障

HDFS的关键元素：

Block：将一个文件进行分块，通常是64M。

NameNode：保存整个文件系统的目录信息、文件信息及分块信息，这是由唯一一台主机专门保存，当然这台主机如果出错，NameNode就失效了。在Hadoop2.*开始支持activity-standy模式----如果主NameNode失效，启动备用主机运行NameNode。

DataNode：分布在廉价的计算机上，用于存储Block块文件。

MapReduce"Map（映射）"和"Reduce（归约）":一套从海量源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，而从海量数据中提取分析我们需要的内容就是MapReduce做的事。

适用场景

下图为京东的北斗系统架构图

hadoop擅长离线日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：安装hadoop的步骤	下一篇：Hadoop fs 和Hadoop dfs