本节介绍如何使用Databricks数据洞察控制台创建集群。
前提条件
已注册阿里云账号,并完成实名认证。详情请参见
阿里云账号注册流程。
操作步骤
- 使用阿里云账号登录Databricks数据洞察控制台。
- 在Databricks数据洞察控制台页面,选择所在的地域(Region)。
创建的集群将会在对应的地域内,一旦创建后不能修改。
- 在左侧导航栏中,单击集群。
- 在集群管理页面,单击创建集群。
- 设置基础信息。
参数 描述 集群名称 集群的名字。长度限制为1~64个字符,仅可使用中文、字母、数字、连接号(-)和下划线(_)。 Knox账号 为了更好的安全性,Web UI访问(如Zeppelin Notebook、Spark UI、Ganglia UI)需要Knox账号和密码,来保障您的账号安全。若无RAM子账号,请前往RAM进行创建https://ram.console.aliyun.com/users/new Knox密码 两次确认Knox密码,登录Web UI时候使用,请您牢记。 Databricks Runtime版本 Databricks Runtime的版本信息,版本号与Databricks官方保持一致,包含Scala和Spark的版本。版本详情请参见Databricks Runtime版本说明。 Python版本 默认版本为Python 3。 付费类型 目前支持的付费类型为按量付费。 即根据实际使用的小时数来支付费用,每小时计费一次。适合短期的测试任务或是灵活的动态任务。
可用区 可用区为在同一地域下的不同物理区域,可用区之间内网互通。 一般选择默认的可用区即可,亦可选择与已购阿里云产品部署在同一个可用区。
ECS实例 由Master和Worker两种类型的节点组成: - Master节点:主要负责集群资源管理和作业调度。默认节点个数为1。
- Worker节点:集群的计算节点,主要负责作业的执行。最小节点数量为3。
- 设置高级信息。
高级信息包括如下两方面:
- Spark设置
参数 描述 Spark配置 输入Spark的配置信息。配置的属性值将会更改到spark-defaults.conf文件中。支持的配置列表为spark.apache.org/docs/latest/configuration.html#spark-properties 环境变量 您可以自定义Spark执行的环境变量。配置的属性将会更新到spark-env.sh中。 - 服务目录
参数 描述 类型 包括以下两种类型: - 默认值
- 自定义
OSS路径 该目录用来存放集群服务组件的临时文件等。 该目录会作为产品的根目录来使用。当用户有多个集群时,不需要为每个集群单独指定服务目录。不同Region需要有不同的服务目录,产品会为每个集群在服务目录下创建子目录,即 oss://${specified-bucket-or-dir}/ddi-${clusterid}/。
- Spark设置
- 阅读并勾选服务条款。
- 单击创建。
集群创建需要时间,当状态更新为
空闲时表示创建成功,请您耐心等待。
问题反馈
您在使用阿里云Databricks数据洞察过程中有任何疑问,欢迎用钉钉扫描下面的二维码加入钉钉群进行反馈。