TOP

一篇了解大数据架构及Hadoop生态圈(一)

2019-09-17 18:17:36 【大中小】浏览:86次

Tags：一篇了解数据架构 Hadoop 生态

一篇了解大数据架构及Hadoop生态圈

阅读建议，有一定基础的阅读顺序为1,2,3,4节，没有基础的阅读顺序为2,3,4,1节。

第一节集群规划

大数据集群规划（以CDH集群为例），参考链接：

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_host_allocations.html

https://blog.csdn.net/xuefenxi/article/details/81563033

Cloudera（CDH）简介

官方文档https://www.cloudera.com/documentation/enterprise/latest.html

CDH(Clouder's Distribution Including Apache hadoop)，基于web的用户界面，支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、pig、Hbase、Zookeeper、Sqoop,简化了大数据平台的安装和使用难度。

Cloudera作为一个强大的商业版数据中心管理工具，提供了各种能够快速稳定运行的数据计算框架。

CDH集群可以划分为不同的角色，主要包括以下几种：

管理节点（Master Hosts）:主要用于运行Hadoop的管理进程，比如HDFS的NameNode，YARN的ResourceManager。
工具节点（Utility Hosts）：主要用于运行非管理进程的其他进程，比如Cloudera Manager和Hive Metastore.
边缘节点（Gateway Hosts）:用于集群中启动作业的客户机器，边缘节点的数量取决于工作负载的类型和数量。
工作节点（Worker Hosts）:用户运行DataNode以及其他分布式进程。

集群大小划分：

测试/开发集群（小于10台），小规模集群（10-20台），中小规模集群（20-50台），中等规模集群（50-100台），大型集群（100-200台），超大规模集群（200-500台），巨型规模集群（500台以上）。每台机器的大小通常为32G物理内存，1T磁盘大小。

测试开发集群（逻辑划分）：1台管理节点+1台工具节点/1台边缘节点+N台工作节点。

Master Hosts

Utility Hosts

Gateway Hosts

Worker Hosts

Master Host 1:

NameNode
YARN ResourceManager
JobHistory Server
ZooKeeper
Kudu master
Spark History Server

One host for all Utility and Gateway roles:

Secondary NameNode
Cloudera Manager
Cloudera Manager Management Service
Hive Metastore
HiveServer2
Impala Catalog Server
Impala StateStore
Hue
Oozie
Flume
Gateway configuration

3 - 10 Worker Hosts:

DataNode
NodeManager
Impalad
Kudu tablet server

(可在Cloudera Manager界面查看，端口号：7180)

1台机器上部署管理节点，通常包括的角色：

NN: NameNode (HDFS);

SHS: Spark History Server (Spark);

RM: Resource Manager (YARN);

JHS: JobHistoryServer

ZK: Zookeeper;

KM: kudu Master

ISS: Impala Statestore

1台机器部署工具节点/边缘节点：

工具节点通常包括的角色：

CM: Cloudera Manager

JN: JournalNode

CMS: Cloudera Management service

ICS: Impala Catelog service

NMS: Navigator Metadata

HMS: Hive Metadata

NAS: Navigator Audit Srver

ZK, Fluem, Sqoop, Hue, HttpFS

边缘节点通常包括的角色：

GW: Gateway configuration

Hue, Sqoop, Flume, HiveServer

工作节点通常包括的角色：

Impala Daemon, NodeManager, DataNode, Kudu Tablet Server

第二节 Hadoop生态圈

Hadoop生态体系中，HDFS提供文件存储，YARN提供资源管理，在此基础上，进行各种处理，包括mapreduce、Tez、Sprak、Storm等计算。

图 Hadoop生态体系

hadoop基础：https://blog.csdn.net/chengyuqiang/article/category/6905123/6

第三节 Hadoop三大核心组件

Hadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。

（1）HDFS集群：负责海量数据的存储。

（2）YARN集群：负责海量数据运算时的资源调度。

（3）MapReduce：它其实是一个应用程序开发包。

hadoop三大组件：https://blog.csdn.net/wyfly69/article/details/79950039

(1)HDFS

(1)HDFS(Hadoop Distributed File System)

(Hadoop分布式文件系统，存储是大数据技术的基础)

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序的数据访问功能，适合大型数据集的应用程序。它提供了一次写入多次读取的机制，数据以块的形式，同时分布在集群中不同物理机器上。

快速理解：

1）HDFS的文件被分成块进行存储，默认为64M,块是文件存储处理的逻辑单元。

2）HDFS有两类节点，NameNode和DataNo

首页上一页 1 2 3 4 5 下一页尾页 1/5/5
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：事务的隔离级别（并发产生的错误）	下一篇：redis的主从复制，哨兵值守