首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据成神之路

    数据调度平台分类对比(OozieAzkabanAirFlowXXL-JobDolphinScheduler)

    数据调度系统,是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。 XXL-Job XXL-JOB是一个开源的,具有丰富的任务管理功能以及高性能,高可用等特点的轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展、开箱即用。 Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 类型支持 支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process 调度器使用分布式调度,整体的调度能力会随集群的规模线性正常,Master和Worker支持动态上下线,可以自由进行配置。 可以通过对用户进行资源、项目、数据源的访问授权。

    12.8K20编辑于 2022-04-13
  • 来自专栏程序猿的大杂烩

    数据平台 —— 调度系统之Azkaban

    轻量级调度框架 AirFlow:基于Python开发的通用批处理调度框架 Zenus:阿里开源的基于Hadoop的工作流调度系统 EasyScheduler:国内开源的分布式工作流任务调度系统 开源调度框架对比 、管理任务 将Azkaban作为数据平台的- -部分,提供任务调度的能力 基于Azkaban的异常处理、监控报警、审计日志完善数据平台功能 ---- Azkaban架构与调度流程 Azkaban架构图如下 job2 dependencies=job1 ---------- $ vim job3.job type=command command=sh job3.sh dependencies=job1 因为我们如果要开发自己的大数据平台,可能并不会使用Azkaban WebServer的可视化界面,而是希望在自己的大数据平台界面去与Azkaban进行交互,完成任务的调度管理。 所以Azkaban提供了HTTP Api的支持,让我们可以轻松实现与自研平台的整合。

    5.9K70发布于 2020-11-16
  • 来自专栏TASKCTL技术交流讨论

    数据调度平台系统二种类及其实现方法与流程

    什么是调度系统 调度系统,更确切地说,作业调度系统(Job Scheduler)或者说工作流调度系统(workflow Scheduler)是任何一个稍微有点规模,不是简单玩玩的大数据开发平台都必不可少的重要组成部分 TASKCTL 作业系统的两种类 现在市面上的调度系统根据功能性可以分为两类定时类作业调度系统&DAG工作流类作业调度系统这两类系统的架构和功能实现通常存在很大的差异,下面就来跟大家普及一下这两种作业系统的不同之处 DAG工作流类调度系统所服务的通常是作业繁多,作业之间的流程依赖比较复杂的场景; 如:大数据开发平台的离线数仓报表处理业务,从数据采集,清洗,到各个层级的报表的汇总运算,到最后数据导出到外部业务系统,一个完整的业务流程 一个完整的数据分析任务最少执行一次,在数据量较少,依赖关系较为简单的低频数据处理过程中,这种调度方式完全可以满足需求。 etl批量作业集群统一调度平台搭建 随着大数据应用需求的不断膨胀,数据处理的复杂度和实时性要求越来越高。

    2K81发布于 2020-07-03
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(五):Airflow使用

    24号开始调度,每隔1天执行一次,这个DAG的具体运行时间如下图: 自动调度DAG 执行日期自动调度DAG实际执行触发时间2022-03-24,00:00:00+00:002022-03-25,00:00 002022-03-28,00:00:00+00:002022-03-28,00:00:00+00:002022-03-29,00:00:00+00:00... ...... ...以上表格中以第一条数据为例解释 ,Airflow正常调度是每天00:00:00 ,假设当天日期为2022-03-24,正常我们认为只要时间到了2022-03-24 00:00:00 就会执行,改调度时间所处于的调度周期为2022-03 当然除了自动调度外,我们还可以手动触发执行DAG执行,要判断DAG运行时计划调度(自动调度)还是手动触发,可以查看“Run Type”。 DAG可以有或者没有调度执行周期,如果有调度周期,我们可以在python代码DAG配置中设置“schedule_interval”参数来指定调度DAG周期,可以通过以下三种方式来设置。

    13.7K54编辑于 2022-07-17
  • 来自专栏用户6296428的专栏

    有赞大数据平台调度系统演进

    概述 2017年,我们引入Airflow搭建了有赞大数据平台(DP)的调度系统,并完成了全量离线任务的接入。 3、DolphinScheduler能力补齐 对于DP现有调度系统的一些定制化能力,我们计划后续在DS侧进行针对性的补齐,下面列举几个目前对于DP平台相对核心的功能以及对应的改造方案设计。 任务类型适配 目前DP平台的任务类型主要有16种,主要包含数据同步类的任务和数据计算类的任务,因为任务的元数据信息会在DP侧维护,因此我们对接的方案是在DP服务端构建任务配置映射模块,将DP维护的Task 图3:当9点恢复调度后,因为catchup机制,调度系统会自动回补之前丢失的执行计划,也就是实现调度的自动回补。 确定没有任何问题后,我们会在明年1月进行生产环境灰度测试,并计划在3月完成生产环境的工作流全量迁移。

    3K20编辑于 2021-12-27
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(三):Airflow单机搭建

    [yes|no]Yes【继续回车】... ...Anaconda3 will now be installed into this location:/root/anaconda3 - Press ENTER >>> 【回车即可,安装到/root/anaconda3路径下】... ...Do you wish the installer to initialize Anaconda3by running conda 【安装完成】3、配置Anconda的环境变量在 /etc/profile中加入以下语句:export PATH=$PATH:/root/anaconda3/bin#使环境变量生效source /etc/ 4、配置Airflow使用的数据库为MySQL打开配置的airflow文件存储目录,默认在$AIRFLOW_HOME目录“/root/airflow”中,会有“airflow.cfg”配置文件,修改配置如下 Default to 5 minutes.dag_dir_list_interval = 305、安装需要的python依赖包初始化Airflow数据库时需要使用到连接mysql的包,执行如下命令来安装

    5.5K45编辑于 2022-09-20
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(一):什么是Airflow

    什么是AirflowApache Airflow是一个提供基于DAG有向无环图来编排工作流的、可视化的分布式任务调度平台,与Oozie、Azkaban等任务流调度平台类似。 Airflow在2014年由Airbnb发起,2016年3月进入Apache基金会,在2019年1月成为顶级项目。 Airflow采用Python语言编写,提供可编程方式定义DAG工作流,可以定义一组有依赖的任务,按照依赖依次执行, 实现任务管理、调度、监控功能。 Airflow官网:http://airflow.apache.org/,Airflow支持的任务调度类型如下:如何获取栏目资源包通过下面的资源链接进行下载,希望对你的学习有帮助https://download.csdn.net

    6.4K44编辑于 2022-09-17
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(二):Airflow架构及原理

    Scheduler:调度器,负责周期性调度处理工作流,并将工作流中的任务提交给Executor执行。 DaskExecutor:动态任务调度,支持远程集群执行airflow任务。 metadata database:Airflow的元数据库,用于Webserver、Executor及Scheduler存储各种状态数据,通常是MySQL或PostgreSQL。 二、Airflow术语DAGDAG是Directed Acyclic Graph有向无环图的简称,描述其描述数据流的计算过程。 Scheduler会间隔性轮询元数据库(Metastore)已注册的DAG有向无环图作业流,决定是否执行DAG,如果一个DAG根据其调度计划需要执行,Scheduler会调度当前DAG并触发DAG内部task

    8K33编辑于 2022-09-18
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(四):Airflow WebUI操作介绍

    Landing Times Landing Times显示每个任务实际执行完成时间减去该task定时设置调度的时间,得到的小时数,可以通过这个图看出任务每天执行耗时、延迟情况。 Task Reschedules Task 重新调度的实例情况。 SLA Misses 如果有一个或者多个实例未成功,则会发送报警电子邮件,此选项页面记录这些事件。

    2.7K44编辑于 2022-03-29
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(六):Airflow Operators及案例

    depends_on_past(bool,默认False):是否依赖于过去,如果为True,那么必须之前的DAG调度成功了,现在的DAG调度才能执行。 C:\Users\wubai>d: D:\>cd d:\ProgramData\Anaconda3\envs\python37\Scripts d:\ProgramData\Anaconda3\envs score_info(id int,name string,score int) row format delimited fields terminated by '\t'; 向表 person_info加载如下数据 : 1 zs 18 2 ls 19 3 ww 20 向表score_info加载如下数据: 1 zs 100 2 ls 200 3 ww 300 2、在node4节点配置Hive 客户端 由于Airflow C:\Users\wubai>d: D:\>cd d:\ProgramData\Anaconda3\envs\python37\Scripts d:\ProgramData\Anaconda3\envs

    9.4K55编辑于 2022-09-21
  • 来自专栏TASKCTL技术交流讨论

    数据仓库ETL管理平台TASKCTL调度计划控制原理

    月:*表示每月 周:*表示每天;0-6 分别代码礼拜天到礼拜六 在对日月周设置时,多个数字用’,’隔开,但不能有空格,如果是一段连续数字,可以按如下表达: 比如:日字段:1,3-15:表示 1 号,3 可使用连串数据:成功返回值 0-10,警告返回值 11-30 等。注意:用户自定义的返回值只能是在 0-100 之间。 v 7.0 + 新增支持返回信息匹配作业程序的输出信息。 远程调度与负载均衡 运程调度指当作业程序未部署在相应调度服务上时,调度服务器需要通过执行代理控制相应程序。 如下图所示: ​上图表明调度服务控制 agent3 部署 test2.sh 程序。 对于负载均衡应用,实际上与代码设计无关,只与部署相关。 就拿以上调度示例为例,只需在 agent3 下级联从代理并与上级代理做相同的作业程序部署即可完成负载均衡调度

    1.4K20编辑于 2022-05-10
  • 来自专栏数据社

    从0到1搭建大数据平台调度系统

    目前大数据平台经常会用来跑一些批任务,跑批处理当然就离不开定时任务。比如定时抽取业务数据库的数据,定时跑hive/spark任务,定时推送日报、月报指标数据。 任务调度系统已经俨然成为了大数据处理平台不可或缺的一部分。 一、原始任务调度 ? 记得第一次参与大数据平台从无到有的搭建,最开始任务调度就是用的Crontab,分时日月周,各种任务脚本配置在一台主机上。crontab 使用非常方便,配置也很简单。 比如上游任务1结束后拿到结果,下游任务2、任务3需结合任务1的结果才能执行,因此下游任务的开始一定是在上游任务成功运行拿到结果之后才可以开始。 将调度行为抽象形成“调度中心”公共平台,而平台自身并不承担业务逻辑,“调度中心”负责发起调度请求;将任务抽象成分散的JobHandler,交由“执行器”统一管理,“执行器”负责接收调度请求并执行对应的JobHandler

    3.5K21发布于 2020-07-22
  • 来自专栏一起学Golang

    Go调度器系列(3)图解调度原理

    如果你已经阅读了前2篇文章:《调度起源》和《宏观看调度器》,你对G、P、M肯定已经不再陌生,我们这篇文章就介绍Go调度器的基本原理,本文总结了12个主要的场景,覆盖了以下内容: G的创建和分配。 场景3:假设每个p的本地队列只能存4个g。g2要创建了6个g,前4个g(g3, g4, g5, g6)已经加入p1的本地队列,p1本地队列满了。 ? 蓝色长方形代表全局队列。 假定我们场景中一共有4个P,所以m2只从能从全局队列取1个g(即g3)移动p2本地队列,然后完成从g0到g3的切换,运行g3。 ? 场景9:p1本地队列g5、g6已经被其他m偷走并运行完成,当前m1和m2分别在运行g2和g8,m3和m4没有goroutine可以运行,m3和m4处于自旋状态,它们不断寻找goroutine。 为什么要让m3和m4自旋,自旋本质是在运行,线程在运行却没有执行g,就变成了浪费CPU?销毁线程不是更好吗?可以节约CPU资源。

    97030发布于 2019-04-23
  • 来自专栏AokSend接口

    Email API Service平台有哪些?3API接口平台对比

    通过使用API接口,用户可以自动化邮件发送、管理联系人、跟踪活动和分析数据等功能。 本文将介绍三Email API Service平台:AokSend、Mailgun和Postmark,并对它们进行比较。1. SendGrid的API接口可以用于发送个性化邮件、跟踪邮件发送情况、管理联系人和分析数据等。AokSend的API接口功能强大,易于使用。 3. PostmarkPostmark是一家专注于Transactional邮件的服务提供商,提供了一套简单而有效的API接口。 用户可以根据自己的需求和偏好选择适合自己的API接口平台

    1.6K10编辑于 2024-03-22
  • 来自专栏JavaWeb

    任务调度-分布式任务调度平台XXL-JOB

    XXL-JOB或其他开源调度平台。 XXL-JOB功能: 拥有集群任务管理平台,统一管理任务调度平台调度任务,负责触发调度执行,提升调度系统容灾和可用性,可通过nginx为调度中心集群做负载均衡,分配域名。 可自定义开发执行器(实际业务代码开发),负责接收“调度中心”的调度并执行;可直接部署执行器,也可以将执行器集成到现有业务项目中,同业务执行器可无限水平扩展(部署多份),通过调度中心设置策略进行负载调度。 架构、配置使用方式请参考官方github: https://github.com/xuxueli/xxl-job/ 3. ,实时查看调度情况 执行器还有自动注册到调度中心的功能 开源,有项目源码,完全可以自定义开发调度中心Web端(Bootstrap+ftl) .....

    3K20发布于 2019-06-19
  • 来自专栏暴走大数据

    Apache DolphinScheduler之有赞大数据开发平台调度系统演进

    这位来自浙江杭州的 90 后年轻人自 2019 年 9 月加入有赞,在这里从事数据开发平台调度系统和数据同步组件的研发工作。 这是一个大数据离线开发平台,提供用户大数据任务开发所需的环境、工具和数据。 有赞大数据开发平台架构 有赞大数据开发平台主要由基础组件层、任务组件层、调度层、服务层和监控层五个模块组成。 调度系统升级选型 自 2017 年有赞大数据平台 1.0 版本正式上线以来,我们已经在 2018 年 100% 完成了数据仓库迁移的计划,2019 年日调度任务量达 30000+,到 2021 年,平台的日调度任务量已达到 总结起来,最重要的是要满足以下几点: 用户使用无感知,平台目前的用户数有 700-800,使用密度,希望可以降低用户切换成本; 调度系统可动态切换,生产环境要求稳定性大于一切,上线期间采用线上灰度的形式 图2 图 3 表示当 9 点恢复调度之后,因为 具有 Catchup 机制,调度系统会自动回补之前丢失的执行计划,实现调度的自动回补。

    3.4K20编辑于 2021-12-15
  • 来自专栏大数据和云计算技术

    数据分析处理平台调度应该具备什么能力?

    ‍‍‍‍本文想讨论下大数据分析处理平台调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。 谈调度之前,先说说大数据分析处理平台的定义‍‍:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、 一‍‍般来说,大数据分析处理平台有以下几个显著特点: ‍‍1、规模,集群化。百度,腾讯,阿里的大数据分析平台目前都在几千甚至上万台X86服务器的规模。 ‍‍2、复杂度高,多个子系统异构。 3、系统负载高,压力,从腾讯公布的数据来看,每天完成上百万个任务的执行。‍‍ ‍‍4、可靠性要求高,容易维护。‍‍ 那么调度在整个大数据‍‍分析处理平台中起到什么作用? 3、从业务角度来看,系统一定的可扩展的,业务可快速定制的,所以调度本身能结合业务进行定制,支持任务的编排,任务的各个子系统的快速迁移。‍‍ ‍‍

    1.7K70发布于 2018-03-08
  • 来自专栏TASKCTL技术交流讨论

    TASKCTL调度平台服务节点管理

    TASKCTL调度管理平台系统Admin给具有管理员权限的用户,提供了平台级的调度节点管理,系统工程管理,作业类型管理,用户(组)权限管理,常量管理等功能;另外还提供了短信、邮件等平台消息接口配置维护 ,强制签入(流程)维护,以及平台调度元信息的导出导入等维护功能。 节点管 平台节点用于管理整个平台调度控制节点。通过调度服务节点和主代理服务节点,能够部署分布式调度架构;通过主代理以及其下属的从代理,能够部署集群调度架构。 在节点管理的拓扑图页面中,展示了整个平台的网络拓扑结构。如下图所示: ​最上层唯一的调度服务节点:svrnode,用于管理和控制作业的调度策略和指令。 调度服务节点停止后,Web客户端将不用获取应用数据。若长时间停止,建议设置节点为禁用状态。 ​节点启动成功后,状态图标展示为“绿色”。停止后的状态图标展示为“灰色”。

    83360编辑于 2022-04-01
  • 来自专栏我们一无所有,我们巍然矗立

    搭建分布式任务调度平台

    缺点:没有重试补偿机制,不能支持集群不支持路由策略 使用zk分布式锁,和redis原理相同 缺点:没有重试补偿机制,不能支持集群不支持路由策略 使用分布式任务调度平台 有点:具有重试补偿机制 ,具有路由策略,支持集群部署 分布式任务调度平台的原理: 分布式调度平台分为两个模块: 执行器注册中心: 执行器在启动时将自己的ip和端口信息上报到执行器注册中心 执行器管理中心:管理执行器的执行 1. 当要执行定时任务时,分布式调度中心先去执行器注册中心获取执行器地址列表 ? 3. 分布式任务调度中心会根据相应的路由策略选出其中的一个或者多个,然后再本地执行定时任务 路由测试有多种: ? ? 4. XXL-Job Admin平台搭建 任务调度中心 1. 官方下载XXL-Job Admin的源代码 2. 将xxl-job依赖的sql放入数据库中跑一道,添加相应的数据库以及数据库表 ? 3. 这样,我们的任务调度平台的管理后台就搭建成功了。

    1.4K41发布于 2020-09-17
  • 来自专栏JVMGC

    开源基于开源Kettle自研的大数据调度服务监控平台

    本产品是基于开源Kettle自研的Kettle核心接口调用基础组件,其实早在5年前就想搞了,构思了很久,拖到现在,不过还行,现在也不晚吧 最初的想法是启蒙于当年给烟草做过的一个数据交换平台的项目,数据的抽取是基于 同时,kettle自身也有很多的问题,比如 只能使用客户端配置作业、转换 跨平台移植困难 数据安全性较差,系统一旦崩溃,文件库的内容容易丢失 客户端非常耗内存、CPU,只适合配置,不适合做业务 Web界面极其简单 、丑陋,生产环境无法投入使用 基于上述几个企业痛点,我才决定工作之余,每天借用一点休息时间,慢慢积累,坚持不懈,才有了今天Smart Kettle调度平台的出世,也希望能切实 帮助到企业解决数据抽取、调度 ,bat及shell脚本切换繁杂 kettle客户端迁移麻烦,每次都要安装一遍,耗费精力 它是一款超轻量级的kettle web端调度监控平台 支持作业、转换的自定义模板设置 支持作业、转换的多任务模板复制 ,本系统已经集成进来,不需要再配置) Maven3+ Jdk1.8+ Mysql5.7+ https://gitee.com/yaukie/x-smart-kettle-server

    3.3K10编辑于 2023-03-10
领券