为了保障业务数据正常产出,Dataphin支持为计算任务配置实时监控告警规则。任务运行过程中,如果触发了监控告警规则,系统会给您发送告警消息,便于您及时发现并处理异常。本文为您介绍如何为任务配置实时监控告警规则。
背景信息
生产环境的任务参与调度时,可以根据业务需求配置监控任务运行状况的监控规则,以便您及时了解任务运行的异常。系统根据监控规则和任务运行情况,决策是否报警、何时报警、如何报警以及给谁报警。同时,Dataphin系统会为您记录历史报警,您可以单击页面上方的告警中心,查看相关告警事件和告警信息。
实时监控配置列表
实时监控页面展示已配置的实时监控的任务名称和ID、报警原因、创建人、接收方式、接收人、最后修改时间、监控开关的状态信息。
操作 | 描述 |
---|---|
筛选 | 在上图的模块①区域,您可以通过筛选条件过滤需要查询的实时监控配置。
筛选项包括:
如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。 |
单节点操作 | 编辑、删除监控规则、开启或关闭监控开关。
开启监控开关后,监控项生效。 |
批量操作 | 批量删除监控规则或修改监控规则的接收人、开启或关闭监控开关。 |
批量配置监控项
批量配置监控项支持为一个报警原因配置多个物理任务或逻辑表字段的监控规则。
- 在实时监控配置页面,鼠标悬停至新建实时监控上,单击批量监控项配置。
- 在批量监控项配置向导页面,完成以下操作。
- 配置报警原因。
参数 描述 报警原因 选择报警原因: - 业务延时过高。
- TPS超过范围。
- 失败频率超过配置。
- 数据滞留超过配置。
规则配置 根据选择的报警原因配置规则。 - 选择了业务延时过高,则需要配置业务延时超过时间点。
- 选择了TPS超过范围,则需要配置TPS范围。
- 选择了失败频率超过配置,则需要配置失败频率超过的时间点。
- 选择了数据滞留超过配置,则需要配置数据滞留时间点。
报警频率 频率范围为1~59分钟/次。如果超出范围取输入值的临近默认值。 监控区间 设置监控的时间区间,系统支持选择全天或指定时间段。 接收对象 选择告警信息的接收人: - 负责人:指定该离线计算任务的责任人为报警信息的接收人。
- 自定义:单击自定义后,选择报警信息的接收人(系统支持最多可以选择5个)。
- 值班表:
如果您还没有值班表,则需要先在告警中心配置值班表,详情请参见新建值班表。
接收方式 选择告警接收方式。系统支持选择电话、短信、钉钉、邮件,且支持多选。 发送次数 设置每个告警事件最多发送几次告警。 - 完成配置后,单击下一步。
- 选择监控项。您可以根据业务需要配置多个任务或字段的监控项,如下图所示。说明 单次配置最多选择50个监控项。
- 配置报警原因。
- 单击确定。
批量配置监控规则
批量配置监控规则支持为一个监控任务配置多个报警原因的监控规则。
- 在实时监控配置页面,鼠标悬停至新建实时监控上,单击批量监控规则配置。
- 在批量监控规则配置页面,选择监控任务(区域①)、添加报警原因(区域②)后,配置告警规则(区域③)。
参数 描述 报警原因 选择报警原因: - 选择了业务延时过高,则需要配置业务延时超过时间点。
- 选择了TPS超过范围,则需要配置TPS范围。
- 选择了失败频率超过配置,则需要配置失败频率超过的时间点。
- 选择了数据滞留超过配置,则需要配置数据滞留时间点。
报警频率 频率范围为1~59分钟/次。如果超出范围取输入值的临近默认值。 监控区间 设置监控的时间区间,系统支持选择全天或指定时间段。 接收对象 选择告警信息的接收人: - 负责人:指定该离线计算任务的责任人为报警信息的接收人。
- 自定义:单击自定义后,选择报警信息的接收人(系统支持最多可以选择5个)。
- 值班表:
如果您还没有值班表,则需要先在告警中心配置值班表,详情请参见新建值班表。
接收方式 选择告警接收方式。系统支持选择电话、短信、钉钉、邮件,且支持多选。 发送次数 设置每个告警事件最多发送几次告警。 您可以根据业务需要配置多个报警原因,单击
图标,添加报警原因并配置告警规则。
- 单击确定。