设为首页 加入收藏

TOP

一篇了解大数据架构及Hadoop生态圈(一)
2019-09-17 18:17:36 】 浏览:86
Tags:一篇 了解 数据 架构 Hadoop 生态

一篇了解大数据架构及Hadoop生态圈

阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节。

第一节 集群规划

大数据集群规划(以CDH集群为例),参考链接:

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_host_allocations.html

 

https://blog.csdn.net/xuefenxi/article/details/81563033

Cloudera(CDH)简介

官方文档https://www.cloudera.com/documentation/enterprise/latest.html

CDH(Clouder's Distribution Including Apache hadoop),基于web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、pig、Hbase、Zookeeper、Sqoop,简化了大数据平台的安装和使用难度。

Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架。

 

CDH集群可以划分为不同的角色,主要包括以下几种:

  1. 管理节点(Master Hosts):主要用于运行Hadoop的管理进程,比如HDFS的NameNode,YARN的ResourceManager。
  2. 工具节点(Utility Hosts):主要用于运行非管理进程的其他进程,比如Cloudera Manager和Hive Metastore.
  3. 边缘节点(Gateway Hosts):用于集群中启动作业的客户机器,边缘节点的数量取决于工作负载的类型和数量。
  4. 工作节点(Worker Hosts):用户运行DataNode以及其他分布式进程。

 

集群大小划分:

    测试/开发集群(小于10台),小规模集群(10-20台),中小规模集群(20-50台),中等规模集群(50-100台),大型集群(100-200台),超大规模集群(200-500台),巨型规模集群(500台以上)。每台机器的大小通常为32G物理内存,1T磁盘大小。

 

测试开发集群(逻辑划分):1台管理节点+1台工具节点/1台边缘节点+N台工作节点。

  

Master Hosts

Utility Hosts

Gateway Hosts

Worker Hosts

Master Host 1:

  • NameNode
  • YARN ResourceManager
  • JobHistory Server
  • ZooKeeper
  • Kudu master
  • Spark History Server

One host for all Utility and Gateway roles:

  • Secondary NameNode
  • Cloudera Manager
  • Cloudera Manager Management Service
  • Hive Metastore
  • HiveServer2
  • Impala Catalog Server
  • Impala StateStore
  • Hue
  • Oozie
  • Flume
  • Gateway configuration

3 - 10 Worker Hosts:

  • DataNode
  • NodeManager
  • Impalad
  • Kudu tablet server

(可在Cloudera Manager界面查看,端口号:7180)

1台机器上部署管理节点,通常包括的角色:

NN: NameNode (HDFS);

SHS: Spark History Server (Spark);

RM: Resource Manager (YARN);

JHS: JobHistoryServer

ZK: Zookeeper;

KM: kudu Master

ISS: Impala Statestore

1台机器部署工具节点/边缘节点:

工具节点通常包括的角色:

    CM: Cloudera Manager

    JN: JournalNode

    CMS: Cloudera Management service

    ICS: Impala Catelog service

    NMS: Navigator Metadata

    HMS: Hive Metadata

    NAS: Navigator Audit Srver

    ZK, Fluem, Sqoop, Hue, HttpFS

边缘节点通常包括的角色:

    GW: Gateway configuration

    Hue, Sqoop, Flume, HiveServer

工作节点通常包括的角色:

    Impala Daemon, NodeManager, DataNode, Kudu Tablet Server

 

第二节 Hadoop生态圈

Hadoop生态体系中,HDFS提供文件存储,YARN提供资源管理,在此基础上,进行各种处理,包括mapreduce、Tez、Sprak、Storm等计算。

图 Hadoop生态体系

 

hadoop基础:https://blog.csdn.net/chengyuqiang/article/category/6905123/6

 

第三节 Hadoop三大核心组件

Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

(1)HDFS集群:负责海量数据的存储。

(2)YARN集群:负责海量数据运算时的资源调度。

(3)MapReduce:它其实是一个应用程序开发包。

hadoop三大组件:https://blog.csdn.net/wyfly69/article/details/79950039

(1)HDFS

(1)HDFS(Hadoop Distributed File System)

(Hadoop分布式文件系统,存储是大数据技术的基础)

HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序的数据访问功能,适合大型数据集的应用程序。它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群中不同物理机器上。

 

快速理解:

1)HDFS的文件被分成块进行存储,默认为64M,块是文件存储处理的逻辑单元。

2)HDFS有两类节点,NameNode和DataNo

首页 上一页 1 2 3 4 5 下一页 尾页 1/5/5
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇事务的隔离级别(并发产生的错误) 下一篇redis的主从复制,哨兵值守

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目