本文介绍E-MapReduce(简称EMR)的产品架构,以便您直观的了解EMR的产品组成。
EMR的产品架构如下图所示。

从上图可以看出EMR由四部分组成:
- 社区开源组件
- EMR开源软件增强
EMR基于开源社区版本的组件,增强了其性能和功能,例如:
- Spark中增加了Spark Streaming SQL,性能较开源版本有大幅提升,详情请参见简介。
- Delta Lake相较开源版本增加了ZOrder和Data Skipping能力,详情请参见EMR Delta概述。
- EMR自研组件
- 阿里云其他产品
EMR衔接了开源大数据生态和阿里云生态。EMR可以部署在阿里云ECS(Elastic Compute Service)和Kubernetes(简称ACK)上;数据可以存储在阿里云OSS上;通过在EMR上创建Data Science集群可以使用及学习机器学习PAI;EMR集成在DataWorks,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。