在数据集成过程中,当目标数据源类型为MaxCompute时,您可以通过Dataphin提供的一键生成目标表的功能,快速创建目标表。
操作流程
主流程 | 描述 |
---|---|
创建MaxCompute项目 | 创建Dataphin计算源的MaxCompute项目(best_practice_dev和best_practice_prod)。 |
创建业务板块 | 创建业务板块和数据域。 |
创建计算源 | 创建Dev和Prod项目的计算源。 |
创建项目 | 创建数据开发的工作空间。 |
创建源数据源 | 连接您的业务数据源至Dataphinpin平台。 |
创建目标数据源 | 创建数据集成的目标数据源(MaxCompute类型的数据源)。 |
创建离线单条管道 | 创建用于数据集成的管道任务。 |
一键生成目标表 | 一键创建目标数据源的目标表,以配置管道任务。 |
验证结果 | 验证目标表是否集成到数据。 |
准备工作
- 准备数据源,详情请参见准备数据源。
- 创建MaxCompute项目,详情请参见创建工作空间。
工作空间名称 选择计算引擎服务 best_practice_dev MaxCompute best_practice_prod MaxCompute - 创建业务板块LD_best_practice和LD_best_practice_dev,创建数据域test,详情请参见新建业务板块。
- 创建Dev项目计算源(best_practice_dev),配置如下参数,详情请参见新建MaxCompute离线计算源。
参数 描述 计算类型 默认为MaxCompute,不支持修改。 计算源名称 输入best_practice_dev。 计算源描述 输入Dev项目的计算源。 Endpoint 默认为 http://service.cn.maxcompute.aliyun.com/api
,不支持修改。Project Name 输入best_practice_dev。 Access ID 访问密钥中的AccessKey ID,您可以通过用户信息管理页面获取。 Access Key 访问密钥中的AccessKey Secret,您可以通过用户信息管理页面获取。 - 创建Prod项目计算源(best_practice_prod),配置如下参数,详情请参见新建MaxCompute离线计算源。
参数 描述 计算类型 默认为MaxCompute,不支持修改。 计算源名称 输入best_practice_prod。 计算源描述 输入Prod项目的计算源。 Endpoint 默认为 http://service.cn.maxcompute.aliyun.com/api
,不支持修改。Project Name 输入best_practice_prod。 Access ID 访问密钥中的AccessKey ID,您可以通过用户信息管理页面获取。 Access Key 访问密钥中的AccessKey Secret,您可以通过用户信息管理页面获取。 - 创建项目best_practice和best_practice_dev,详情请参见新建项目。
参数 描述 公用名称 输入最佳实践。 公用英文名 输入best_practice。 业务板块 选择LD_best_practice。 空间类型 选择应用层。 项目1:Dev 选择离线计算源为best_practice_dev。 项目2:Prod 选择离线计算源为best_practice_prod。 描述 输入简单的描述。 沙箱白名单 添加沙箱白名单: - 单击新建。
- 在访问地址输入框中,输入RDS ID.mysql.rds.aliyuncs.com。在访问地址输入框中,输入3306。
- 单击
图标。
- 创建源数据源dataphin,详情请参见新建MySQL数据源。
- 创建目标数据源,配置如下参数,详情请参见新建MaxCompute数据源。
参数 描述 数据源类型 选择MaxCompute。 数据源名称 输入为target。 数据源描述 输入目标数据源。 数据源配置 选择生产+开发数据源。 JDBC URL 输入http://service.cn.maxcompute.aliyun.com/api。 Project Name 开发环境输入为best_practice_dev,生产环境输入为best_practice_prod。 Access ID 访问密钥中的AccessKey ID,您可以通过用户信息管理页面获取。 Access Key 访问密钥中的AccessKey Secret,您可以通过用户信息管理页面获取。
步骤一:创建管道任务
- 登录Dataphin控制台。
- 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。
- 在Dataphin首页,单击顶部菜单栏的研发。
- 在数据开发页面,单击项目名称后的
图标,单击Dev页签,选择best_practice_dev为数据开发的项目空间。
- 在数据开发页面,鼠标悬停至顶部菜单栏中的开发上,单击集成。
- 在数据集成页面,鼠标悬停在
图标,单击离线单条管道。
- 在创建管道开发脚本对话框,配置参数。
参数 描述 管道名称 输入test。 调度类型 调度类型选择手动节点。 描述 填写对离线单条管道的简单描述。 选择目录 默认目录为离线管道。 - 单击确定。
步骤二:配置管道任务(一键生成目标表)
- 在离线单条管道开发页面,单击右上方的组件库。
- 单击输入前的
图标后,单击MySQL组件拖动到左侧的管道画布中。
- 鼠标悬停至组件框内并右键单击,选择属性配置后,配置参数。
参数 描述 步骤名称 保持默认。 数据源 选择数据源(dataphin)。 来源表量 选择单表。 表 选择来源表company_sales_record_copy。 切分键 无需添加切分键。 输入过滤 无需添加过滤条件。 输出字段 查看输出字段。 - 单击确认,完成输入组件的属性配置。
- 单击输出前的
图标后,单击MaxCompute组件拖动到左侧的管道画布中。
- 单击下图中输入组件(MySQL)①处后拖动并指向输出组件(MaxCompute)的②处,形成有向连线。
- 鼠标悬停至输出组件框内并右键单击,选择属性配置,配置参数。
参数 说明 步骤名称 保持默认。 数据源 选择目标数据源 。 表 创建目标表: - 单击一键生成目标表。
- 在代码输入框中,输入建表语句。
CREATE TABLE IF NOT EXISTS datax_test (order_id bigint comment '订单号', `area` string comment '区域', province string comment '省份', city string comment '城市', product_type string comment '类型', order_name string comment '客户名称', report_date datetime comment '日期', order_amt double comment '销售额') PARTITIONED BY ( `ds` STRING);
- 单击新建。
说明 无需选中
是否在生产建表。加载策略 选择追加数据。 分区 输入ds=${bizdate}。 输入字段 根据上游的输入,为您展示输入字段。 输出字段 为您展示输出字段。 快速映射 映射关系选择为同名映射的操作步骤: - 单击快速映射后的
图标。
- 选择同名映射。
- 在提醒对话框中,单击确定。
- 单击确认,完成输出组件的属性配置。
步骤三:验证结果
- 单击管道开发页面左上方的预览。
- 在对话框中,bizdate填写为20200819,单击确定。
- 单击管道开发页面左上方的执行。
- 在对话框中,bizdate填写为20200819,单击确定。查看数据是否同步至MaxCompute组件。