本文为您介绍如何基于Dataphin构建Spark类型的任务。
前提条件
完成上传JAR或PYTHON文件,详情请参见
新建资源。
背景信息
Spark任务中引用到的JAR和PYTHON文件需要提前创建,因此您在资源管理中先上传JAR和PYTHON文件,然后在Spark任务中引用。
操作步骤
- 登录Dataphin控制台。
- 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。
您可以通过以下方式,快速进入数据开发模块:
- 单击快速开始相关工作区域的数据研发。
- 单击快速进入研发项目区域的Dev或Basic项目,选择开发数据的项目空间。
说明- 如果您通过快速开始相关工作进入数据开发模块,则跳过步骤3.i。
- 如果您通过快速进入研发项目进入数据开发模块,则跳过步骤3.ii。
- 进入计算任务页面。
- 在Dataphin首页,单击顶部菜单栏的研发。
- 在数据开发页面,单击项目名称后的
图标后,单击Dev或Basic页签,选择数据开发的项目空间(Dev或Basic项目)。
如果您当前访问的是
Dev或
Basic项目,且项目空间为您的数据开发空间,则不需要选择项目空间。 - 可选:在数据开发页面,单击数据处理页签。
如果进入数据
开发页面后,系统默认进入
数据处理页签,则无需再次单击
数据处理页签。 - 在数据处理页签,单击左侧导航栏
计算任务图标。
- 在计算任务页面,进入新建文件对话框。
- 单击计算任务后的
图标,选择MAXC任务 > SPARK_JAR_ON_MAX_COMPUTE。
- 单击项目名称后的
图标,选择数据处理 > 计算任务 > SPARK_JAR_ON_MAX_COMPUTE。
- 在开发首页,单击MAXC_SPARK_JAR后的
图标。
- 单击计算任务后的
- 编写并运行代码。
- 在新建文件对话框,配置参数。
参数 描述 名称 填写离线计算任务的名称,例如Spark_python。 调度类型 选择任务的调度类型。调度类型包括: - 周期性节点,自动参与系统的周期性调度。
- 手动节点,需要手动触发任务的运行。
描述 填写对任务的简单描述。 选择目录 选择离线计算任务的目录。 - 单击确定。
- 在代码编写页面,编写Spark离线计算任务的代码。
代码示例如下。
@resource_reference{"spark.py"} spark-submit --deploy-mode cluster --conf spark.hadoop.odps.task.major.version=cupid_v2 --conf spark.hadoop.odps.end.point=http://service.cn.maxcompute.aliyun.com/api --conf spark.hadoop.odps.runtime.end.point=http://service.cn.maxcompute.aliyun-inc.com/api --master yarn spark.py
其中,
resource_reference{}
为引用JAR或PYTHON文件资源包,其它语句均为固定语法。 - 检查代码。
代码编写完成后,单击
预编译,系统帮助您检查编写的SQL代码的语法。如果预编译失败,您可以单击页面上方的格式化,系统自动帮助您调整语法格式。调整完格式,您可以单击刷新,刷新页面上的代码。
- 单击页面右上方的执行,运行代码。
- 在新建文件对话框,配置参数。
- 可选:配置调度参数。
- 如果离线计算任务的调度类型为周期性节点,则需要配置调度参数,详情请参见调度配置。
- 如果离线计算任务的调度类型为手动节点,需要手动触发任务的调度。
- 在代码编写页面,保存并提交Spark任务。
- 单击页面右上方的
图标,保存代码。
- 单击页面右上方的
图标,提交代码。
- 在提交备注页面,填写备注信息。
- 单击确定并提交。
- 单击页面右上方的
- 可选:发布Spark任务。
- 如果您的开发模式是Dev-Prod模式,则需要发布Spark任务,详情请参见管理发布任务。
- 如果您的开发模式是Basic模式,则提交成功后的Spark任务,即可参与生产环境的调度。