深度剖析 – 基于亚马逊云科技使用 Apache DolphinScheduler 进行数据任务调度

背景介绍

Apache DolphinScheduler 是一个分布式、可扩展的开源工作流编排平台，拥有强大的 DAG 可视化界面。DolphinScheduler 在设计上充分考虑了用户对于调度服务的需求，具有以下优势：

易于使用：DolphinScheduler 提供了一个直观的 WebUI，使用户能够方便地进行任务定义、调度配置以及监控管理等操作。无需编写复杂的脚本或代码即可创建复杂的工作流。

高可用性及可扩展性：采用主从架构（Master-Worker），支持多 Master 和多 Worker 模式，保证了系统的高可用性和稳定性。支持动态增加或减少 Worker 节点，以应对不同规模的任务负载。同时，系统提供了丰富的插件机制，便于用户根据需要定制功能。

多种任务类型支持：除了支持 Shell、Python 等脚本任务外，还支持 Spark、Flink、Hive 等多种大数据处理框架的任务调度，满足不同场景下的需求。目前 DolphinScheduler 已经原生集成了亚马逊云科技的大部分数据服务，如 EMR、Redshift、DMS、DataSync、Athena、S3。

支持告警机制：内置告警模块，能够在任务失败或其他异常情况下及时通知用户，保证问题能够被迅速发现和解决。

安全与权限控制：提供细粒度的权限管理和认证机制，确保敏感信息的安全。

本文将详细介绍 DolphinScheduler 的云原生容器化部署 Amazon EKS。详细解释如何结合亚马逊云科技的任务插件、数据源插件、存储插件的集成。帮助更高效的使用 DolphinScheduler 进行云服务调用。

极速部署 – DolphinScheduler on EKS

DolphinScheduler 3.2.2 版本于 2024 年 7 月 23 号正式发布，您可以通过查阅官方文档来深入了解 DolphinScheduler 的架构和技术细节。本文重点介绍如何基于亚马逊云科技使用 Terraform 脚本快速部署 DolphinScheduler 的生产可用环境。

部署脚本的核心架构细节：

EKS 架构：部署基于 EKS 容器化，部署完成后会提供一个公开可访问的 ELB 代理域名进行用户访问。

部署用于 DolphinScheduler 的核心服务组件（全部由 Terraform 脚本进行部署）：

Serverless 数据库：采用 Amazon Aurora Serverless v2，支持弹性伸缩范围配置，默认范围为 2-16 ACUs，为系统提供弹性数据库能力。
持久化存储：使用Amazon EFS 提供无服务器、弹性的持久化存储。
任务日志：默认启用远程任务日志存储，日志保存在 Amazon S3 中，支持任务级别日志的审阅。
依赖和文件管理：依赖项和文件管理存储在 S3 中。
命名空间管理：DolphinScheduler 的命名空间和节点扩展由 Karpenter 自动管理。

以下详细说明如何快速进行 DolphinScheduler 部署。

基础环境准备

进入亚马逊云科技 Console，创建 EC2 虚拟机进行部署准备（以 Amazon linux 2023 为例）
进行部署前的环境准备

安装 terraform

参考：https://developer.hashicorp.com/terraform/install#

sudo yum install -y yum-utils shadow-utils
sudo yum-config-manager --add-repo https://rpm.releases.hashicorp.com/AmazonLinux/hashicorp.repo
sudo yum -y install terraform

安装 helm

参考：https://docs.aws.amazon.com/zh_cn/eks/latest/userguide/helm.html

curl https://raw.githubusercontent.com/helm/helm/master/scripts/get-helm-3 > get_helm.shchmod 700 get_helm.sh./get_helm.sh
helm version | cut -d + -f 1

安装 kubectl EKS（版本 1.30）

参考：https://docs.aws.amazon.com/zh_cn/eks/latest/userguide/install-kubectl.html

curl -O https://s3.us-west-2.amazonaws.com/amazon-eks/1.30.0/2024-05-12/bin/linux/amd64/kubectlchmod +x ./kubectl
mkdir -p $HOME/bin && cp ./kubectl $HOME/bin/kubectl && export PATH=$HOME/bin:$PATHkubectl version --client

安装部署

下载部署源码并执行部署脚本：

cd /opt/
# clone source code
git clone https://github.com/SEZ9/terraform-dolphinscheduler.git
# update helm dependency 
cd /opt/terraform-dolphinscheduler/helm-values/dolphinscheduler/
helm repo add bitnami https://charts.bitnami.com/bitnami
helm dependency update .
# Execute deployment
cd /opt/terraform-dolphinscheduler/
sh install.sh

等待执行完成大约 30-50 分钟

即刻体验

执行输出的 kubectl 配置命令

获取 DolphinScheduler 访问地址

kubectl get ingress -n dolphinscheduler
NAME               CLASS   HOSTS   ADDRESS                                                                   PORTS   AGE
dolphinscheduler   alb     *       xxx.elb.amazonaws.com   80      89s

访问地址为：xxx.elb.amazonaws.com:12345/dolphinscheduler

深度使用 – DolphinScheduler 云插件

任务插件 – Amazon EMR

Amazon EMR 提供了两种常用的 API 操作来管理和执行计算任务：RunJobFlow 和 AddJobFlowSteps。

	操作	主要用途	典型流程
1	RunJobFlow	创建新集群并提交初始任务	提交 RunJobFlowRequest，配置集群参数和初始 Steps，启动集群执行任务
2	AddJobFlowSteps	向已存在集群追加新任务	提交 AddJobFlowStepsRequest，指定 JobFlowId 和 Steps，追加任务

而 DolphinScheduler 中的 Amazon EMR 任务类型同时提供了上述两种 EMR API 的支持。接下来，将以 SparkPi 为例，演示如何在 DolphinScheduler 中，分别使用上述两种 API 提交 EMR 任务。

1. 创建 EMR 集群并提交任务：RUN_JOB_FLOW

在 dolphinscheduler 的工作流定义中，选择 EMR 任务类型，创建任务节点，并在节点详细中配置程序类型为：RUN_JOB_FLOW，然后设置 jobFlowDefineJson。

详细的 json 样例如下所示。

{
  "Name": "SparkPi",
  "ReleaseLabel": "emr-7.6.0",
  "Applications": [
    {
      "Name": "Spark"
    }
  ],
  "Instances": {
    "InstanceGroups": [
      {
        "Name": "Primary node",
        "InstanceRole": "MASTER",
        "InstanceType": "m5.xlarge",
        "InstanceCount": 1
      }
    ],
    "KeepJobFlowAliveWhenNoSteps": false,
    "TerminationProtected": false
  },
  "Steps": [
    {
      "Name": "calculate_pi",
      "ActionOnFailure": "CONTINUE",
      "HadoopJarStep": {
        "Jar": "command-runner.jar",
        "Args": [
          "/usr/lib/spark/bin/run-example",
          "SparkPi",
          "15"
        ]
      }
    }
  ],
  "JobFlowRole": "EMR_EC2_DefaultRole",
  "ServiceRole": "EMR_DefaultRole"
}

在 DolphinScheduler 上运行上述工作流后，转到亚马逊云科技 Console上查看，就可以看到一个名叫“SparkPi”的群集正在被创建。

当集群创建完成后，会看到 “Steps” 选项卡中增加了一个 Step。当该 Step 执行完成后，集群就会自动终止。

2. 向现有 EMR 集群提交任务：`ADD_JOB_FLOW_STEPS`

如果要向一个已有的 EMR 集群提交任务，可以在 DolphinScheduler 的 EMR 任务节点中，选择程序类型为：ADD_JOB_FLOW_STEPS。同时在“stepsDefineJson”中填写任务定义。

详细的 “stepsDefineJson”如下所示。

{
  "JobFlowId": "j-36QE9OK3MI8H3",
  "Steps": [
    {
      "Name": "calculate_pi",
      "ActionOnFailure": "CONTINUE",
      "HadoopJarStep": {
        "Jar": "command-runner.jar",
        "Args": [
          "/usr/lib/spark/bin/run-example",
          "SparkPi",
          "15"
        ]
      }
    }
  ]
}

上述 Json 中的 JobFlowId，需要填写 Amazon EMR 集群的 ID，如下图所示。