Databricks数据洞察 创建集群

By | 2021年4月23日

本节介绍如何使用Databricks数据洞察控制台创建集群。

前提条件

已注册阿里云账号,并完成实名认证。详情请参见
阿里云账号注册流程

操作步骤

  1. 使用阿里云账号登录Databricks数据洞察控制台
  2. 在Databricks数据洞察控制台页面,选择所在的地域(Region)。
    创建的集群将会在对应的地域内,一旦创建后不能修改。
  3. 在左侧导航栏中,单击集群
  4. 集群管理页面,单击创建集群
  5. 设置基础信息。
    参数 描述
    集群名称 集群的名字。长度限制为1~64个字符,仅可使用中文、字母、数字、连接号(-)和下划线(_)。
    Knox账号 为了更好的安全性,Web UI访问(如Zeppelin Notebook、Spark UI、Ganglia UI)需要Knox账号和密码,来保障您的账号安全。若无RAM子账号,请前往RAM进行创建https://ram.console.aliyun.com/users/new
    Knox密码 两次确认Knox密码,登录Web UI时候使用,请您牢记。
    Databricks Runtime版本 Databricks Runtime的版本信息,版本号与Databricks官方保持一致,包含Scala和Spark的版本。版本详情请参见Databricks Runtime版本说明
    Python版本 默认版本为Python 3。
    付费类型 目前支持的付费类型为按量付费。

    即根据实际使用的小时数来支付费用,每小时计费一次。适合短期的测试任务或是灵活的动态任务。

    可用区 可用区为在同一地域下的不同物理区域,可用区之间内网互通。

    一般选择默认的可用区即可,亦可选择与已购阿里云产品部署在同一个可用区。

    ECS实例 由Master和Worker两种类型的节点组成:

    • Master节点:主要负责集群资源管理和作业调度。默认节点个数为1。
    • Worker节点:集群的计算节点,主要负责作业的执行。最小节点数量为3。
  6. 设置高级信息。
    高级信息包括如下两方面:
    • Spark设置
      参数 描述
      Spark配置 输入Spark的配置信息。配置的属性值将会更改到spark-defaults.conf文件中。支持的配置列表为spark.apache.org/docs/latest/configuration.html#spark-properties
      环境变量 您可以自定义Spark执行的环境变量。配置的属性将会更新到spark-env.sh中。
    • 服务目录
      参数 描述
      类型 包括以下两种类型:

      • 默认值
      • 自定义
      OSS路径 该目录用来存放集群服务组件的临时文件等。

      该目录会作为产品的根目录来使用。当用户有多个集群时,不需要为每个集群单独指定服务目录。不同Region需要有不同的服务目录,产品会为每个集群在服务目录下创建子目录,即 oss://${specified-bucket-or-dir}/ddi-${clusterid}/

  7. 阅读并勾选服务条款。
  8. 单击创建
    集群创建需要时间,当状态更新为
    空闲时表示创建成功,请您耐心等待。

问题反馈

您在使用阿里云Databricks数据洞察过程中有任何疑问,欢迎用钉钉扫描下面的二维码加入钉钉群进行反馈。

Databricks数据洞察产品群

请关注公众号获取更多资料

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注