首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据成神之路

    数据调度平台分类对比(OozieAzkabanAirFlowXXL-JobDolphinScheduler)

    数据调度系统,是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。 XXL-Job XXL-JOB是一个开源的,具有丰富的任务管理功能以及高性能,高可用等特点的轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展、开箱即用。 Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 类型支持 支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process 调度器使用分布式调度,整体的调度能力会随集群的规模线性正常,Master和Worker支持动态上下线,可以自由进行配置。 可以通过对用户进行资源、项目、数据源的访问授权。

    12.8K20编辑于 2022-04-13
  • 来自专栏程序猿的大杂烩

    数据平台 —— 调度系统之Azkaban

    轻量级调度框架 AirFlow:基于Python开发的通用批处理调度框架 Zenus:阿里开源的基于Hadoop的工作流调度系统 EasyScheduler:国内开源的分布式工作流任务调度系统 开源调度框架对比 、管理任务 将Azkaban作为数据平台的- -部分,提供任务调度的能力 基于Azkaban的异常处理、监控报警、审计日志完善数据平台功能 ---- Azkaban架构与调度流程 Azkaban架构图如下 Azkaban有三种部署模式: Solo mode:内置数据库,Server和Executor在同一个 进程中 Two mode:基于Mysq|数据库,启动一个Server和一个Executor Multi 因为我们如果要开发自己的大数据平台,可能并不会使用Azkaban WebServer的可视化界面,而是希望在自己的大数据平台界面去与Azkaban进行交互,完成任务的调度管理。 所以Azkaban提供了HTTP Api的支持,让我们可以轻松实现与自研平台的整合。

    5.9K70发布于 2020-11-16
  • 来自专栏TASKCTL技术交流讨论

    数据调度平台系统二种类及其实现方法与流程

    什么是调度系统 调度系统,更确切地说,作业调度系统(Job Scheduler)或者说工作流调度系统(workflow Scheduler)是任何一个稍微有点规模,不是简单玩玩的大数据开发平台都必不可少的重要组成部分 TASKCTL 作业系统的两种类 现在市面上的调度系统根据功能性可以分为两类定时类作业调度系统&DAG工作流类作业调度系统这两类系统的架构和功能实现通常存在很大的差异,下面就来跟大家普及一下这两种作业系统的不同之处 DAG工作流类调度系统所服务的通常是作业繁多,作业之间的流程依赖比较复杂的场景; 如:大数据开发平台的离线数仓报表处理业务,从数据采集,清洗,到各个层级的报表的汇总运算,到最后数据导出到外部业务系统,一个完整的业务流程 一个完整的数据分析任务最少执行一次,在数据量较少,依赖关系较为简单的低频数据处理过程中,这种调度方式完全可以满足需求。 etl批量作业集群统一调度平台搭建 随着大数据应用需求的不断膨胀,数据处理的复杂度和实时性要求越来越高。

    2K81发布于 2020-07-03
  • 来自专栏大数据文摘

    5架构:细数数据平台的组成与扩展

    数据处理平台已不集中于传统关系型数据库,各种其他平台层出不穷,也各有其适用范围。 从哪些角度去理解各种数据处理平台的设计思想及发展演进呢? 这种方式有一个弊端是存储的数据量受限于内存的大小,数据量一,索引也增大,数据就饱和了。 2)第二种方式是把的索引结构,拆成很多小的索引来存储。 列式存储尤其适用于表扫描,求均值、最大最小值、分组等聚合查询场景。 列式存储特别适合需要加载数据块,且数据块分到多个文件中的场景。Druid把一些近线实时数据放到写优化的存储中,然后随着时间的推移逐步把这些数据迁移到读优化的存储中。 5、流式处理架构 不像是批处理架构,把数据存储到HDFS上,然后在上面执行各种跑批任务。

    1.9K80发布于 2018-05-22
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(五):Airflow使用

    002022-03-28,00:00:00+00:002022-03-28,00:00:00+00:002022-03-29,00:00:00+00:00... ...... ...以上表格中以第一条数据为例解释 ,Airflow正常调度是每天00:00:00 ,假设当天日期为2022-03-24,正常我们认为只要时间到了2022-03-24 00:00:00 就会执行,改调度时间所处于的调度周期为2022-03 当然除了自动调度外,我们还可以手动触发执行DAG执行,要判断DAG运行时计划调度(自动调度)还是手动触发,可以查看“Run Type”。 DAG可以有或者没有调度执行周期,如果有调度周期,我们可以在python代码DAG配置中设置“schedule_interval”参数来指定调度DAG周期,可以通过以下三种方式来设置。 逗号(,):可以用逗号隔开的值指定一个列表范围,例如,”1,2,5,7,8,9”中杠(-):可以用整数之间的中杠表示一个整数范围,例如”2-6”表示”2,3,4,5,6”正斜线(/):可以用正斜线指定时间的间隔频率

    13.7K54编辑于 2022-07-17
  • 来自专栏数据科学与人工智能

    美国大数据智能理财平台5模式

    不过,世易时移,近年来美国出现了智能投资市场,涌现出很多基于大数据分析的智能理财平台,大大降低了财富管理的门槛,让原先处于“服务真空区”的中产阶级也能享受同等的财富管理服务。 ? 智能理财平台为什么会成功? 现在看来,有两因素促成了这些智能理财平台的成功。 首先,ETF基金的出现大大降低了投资成本。 第1种:基于大数据分析给出投资建议 这种类型的平台根据客户在其他理财交易平台的行为数据,全面了解客户的财务状况和投资现状,帮助客户对过去的投资决策做出回顾。 第2种:基于大数据分析购买投资组合 这种类型的平台基于客户的财务状况和风险承受能力,为客户推荐或购买相应的交易型指数基金。 ETF成为这类型平台的首选基金,因为它的周转率低,降低了交易成本。 第5种:跟投基金经理人的交易 这种类型的平台会即时跟踪基金经理人的投资组合以及每一笔交易动态,平台可以自动帮助普通投资者做出同样的交易或通知投资者让他们自己做出决定。

    2.3K60发布于 2018-02-28
  • 来自专栏大数据学习笔记

    Hadoop基础教程-第5章 YARN:资源调度平台(5.5 YARN的调度器)

    5章 YARN:资源调度平台 5.5 YARN的调度器 打个比方,Hadoop相当于一台虚拟计算机(由多台计算机构造的集群),那么HDFS就是这台虚拟计算机的文件系统,管理磁盘资源;而YARN负责管理虚拟计算机的 Yarn支持三种调度方式:FIFO、FAIR和DRF分别是指先来先服务、公平调度和主资源公平调度的应用可能会占用所有集群资源,这就导致其它应用被阻塞。 5.5.2 Fair调度器 FAIR:按照内存资源使用量比率调度,即按照used_memory/minShare大小调度(核心思想是按照该调度算法决定调度顺序,但还需考虑一些边界情况); 在Fair调度器中 如下图所示,当第一个job提交时,只有这一个job在运行,此时它获得了所有集群资源;当第二个小任务提交后,Fair调度器会分配一半资源给这个小任务,让这两个任务公平的共享集群资源。

    54110编辑于 2022-05-06
  • 5步骤打造基于YashanDB数据库的数据平台

    构建基于 YashanDB 数据库的数据平台是一个复杂的过程,涉及多个步骤。以下是五步骤,可以帮助你构建一个有效的数据平台:第一步:需求分析与规划1. 明确目标:确定数据湖的主要用途,例如数据分析、机器学习或实时处理等。2. 数据来源:识别需要集成的各种数据来源,包括结构化、半结构化和非结构化数据。3. 数据采集:设置数据采集管道,确保能够有效地从不同来源获取数据,包括批量和实时数据。2. 格式转换:在数据进入数据湖之前,进行必要的数据格式转换,保证数据的一致性。3. 元数据管理:为数据湖中的数据创建元数据,便于后续的数据管理和查询。第四步:数据存储与管理1. 选择存储解决方案:根据数据量、访问频率和处理要求,选择合适的存储方式(如 ODS、数据仓库等)。2. 持续优化:根据用户反馈和数据使用情况,不断优化数据湖的结构和性能,迭代改进流程。这五步骤为构建基于 YashanDB 的数据平台提供了一个系统化的框架。

    11810编辑于 2025-11-14
  • 来自专栏用户6296428的专栏

    有赞大数据平台调度系统演进

    概述 2017年,我们引入Airflow搭建了有赞大数据平台(DP)的调度系统,并完成了全量离线任务的接入。 3、DolphinScheduler能力补齐 对于DP现有调度系统的一些定制化能力,我们计划后续在DS侧进行针对性的补齐,下面列举几个目前对于DP平台相对核心的功能以及对应的改造方案设计。 任务类型适配 目前DP平台的任务类型主要有16种,主要包含数据同步类的任务和数据计算类的任务,因为任务的元数据信息会在DP侧维护,因此我们对接的方案是在DP服务端构建任务配置映射模块,将DP维护的Task 跨Dag全局补数 跨Dag全局补数的使用场景一般出现在核心上游表产出异常导致下游商家展示数据异常,一般这种情况下都需要能快速重跑整个数据链路下的所有任务实例来恢复数据正确性。 现状&规划 1、接入现状 DP平台目前已经在测试环境中部署了部分DS服务,并迁移了全量工作流,实现QA环境的调度任务双跑。

    3K20编辑于 2021-12-27
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(三):Airflow单机搭建

    4、配置Airflow使用的数据库为MySQL打开配置的airflow文件存储目录,默认在$AIRFLOW_HOME目录“/root/airflow”中,会有“airflow.cfg”配置文件,修改配置如下 :[core]dags_folder = /root/airflow/dags#修改时区default_timezone = Asia/Shanghai# 配置数据库sql_alchemy_conn=mysql graph``, ``duration``, ``gantt``, ``landing_times``dag_default_view = graph[scheduler]#设置默认发现新任务周期,默认是5分钟 Default to 5 minutes.dag_dir_list_interval = 305、安装需要的python依赖包初始化Airflow数据库时需要使用到连接mysql的包,执行如下命令来安装 python37) [root@node4 ~]# pip install mysqlclient -i https://pypi.tuna.tsinghua.edu.cn/simple6、初始化Airflow 数据

    5.5K45编辑于 2022-09-20
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(一):什么是Airflow

    什么是AirflowApache Airflow是一个提供基于DAG有向无环图来编排工作流的、可视化的分布式任务调度平台,与Oozie、Azkaban等任务流调度平台类似。 Airflow采用Python语言编写,提供可编程方式定义DAG工作流,可以定义一组有依赖的任务,按照依赖依次执行, 实现任务管理、调度、监控功能。 Airflow官网:http://airflow.apache.org/,Airflow支持的任务调度类型如下:如何获取栏目资源包通过下面的资源链接进行下载,希望对你的学习有帮助https://download.csdn.net

    6.4K44编辑于 2022-09-17
  • 来自专栏PDF转换docx

    5值得推荐的客户协作平台

    3.简道云知识库 简道云知识库依托于其本身的零代码平台,像富文本编辑、结构化存储、容量、可分享协作、安全性强、支持权限设置这些功能我就不说了,都有。 他们的知识库,沿袭了产品本身的特点(重数据管理、重流程协作),因此可以把知识管理与工作流结合起来。 主要功能 简道云流程 管理员提前设置好流程的节点,负责人和数据流转的路径。 一旦数据提交后,就会进入流程,按照流程的设定进行流转。流程常用于如财务报销、请假审批等场景。 简道云仪表盘 在表单中收集得到的数据,可通过仪表盘来进行查看、分析和处理。 5.ONLYOFFICE ONLYOFFICE是一款开源且免费的办公套件,向用户提供了文本文档,电子表格,演示文稿,以及免费的表单模板等功能。在最新的版本更新中又添加了加密版本的协作空间。 结语; 以上就是我给大家分享的几款比较值得推荐的能与客户或企业之前协作的平台,如果你有更好的协作平台可以推荐,欢迎在评论区讨论。

    1.8K20编辑于 2023-04-26
  • 5理由选择YashanDB作为企业数据平台

    当前企业数据库面临如何优化查询速度、保证数据一致性和高可用性以及支持海量数据和复杂业务场景等关键技术挑战。传统数据库架构往往难以兼顾高性能、可扩展性和稳定性。 为满足不断增长的业务需求,选择一个技术先进且全面的数据平台显得尤为重要。 先进的SQL优化器和执行引擎保障高效查询YashanDB SQL引擎包含解析、校验、优化和执行四阶段,优化器采用成本模型(CBO)进行智能计划生成,使用丰富的统计信息和动态调整技术精准评估执行计划代价 结论选择YashanDB作为企业数据平台,企业能够充分利用其灵活多样的部署方案、先进的存储引擎技术、高效SQL优化执行能力、完善的事务控制以及高可用灾备架构,实现数据管理的高性能、高可靠和高扩展。 通过应用本文所述技术原理和最佳实践,帮助企业打造稳定、高效、可持续发展的数据平台,保障关键业务的稳定运行与发展。

    14910编辑于 2025-11-14
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(二):Airflow架构及原理

    Scheduler:调度器,负责周期性调度处理工作流,并将工作流中的任务提交给Executor执行。 DaskExecutor:动态任务调度,支持远程集群执行airflow任务。 metadata database:Airflow的元数据库,用于Webserver、Executor及Scheduler存储各种状态数据,通常是MySQL或PostgreSQL。 二、Airflow术语DAGDAG是Directed Acyclic Graph有向无环图的简称,描述其描述数据流的计算过程。 Scheduler会间隔性轮询元数据库(Metastore)已注册的DAG有向无环图作业流,决定是否执行DAG,如果一个DAG根据其调度计划需要执行,Scheduler会调度当前DAG并触发DAG内部task

    8K33编辑于 2022-09-18
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(四):Airflow WebUI操作介绍

    Landing Times Landing Times显示每个任务实际执行完成时间减去该task定时设置调度的时间,得到的小时数,可以通过这个图看出任务每天执行耗时、延迟情况。 Task Reschedules Task 重新调度的实例情况。 SLA Misses 如果有一个或者多个实例未成功,则会发送报警电子邮件,此选项页面记录这些事件。

    2.7K44编辑于 2022-03-29
  • 来自专栏Lansonli技术博客

    数据调度平台Airflow(六):Airflow Operators及案例

    depends_on_past(bool,默认False):是否依赖于过去,如果为True,那么必须之前的DAG调度成功了,现在的DAG调度才能执行。 如下: 二、​​​​​​​SSHOperator及调度远程Shell脚本 在实际的调度任务中,任务脚本大多分布在不同的机器上,我们可以使用SSHOperator来调用远程机器上的脚本任务。 : 3、准备远程执行脚本 在node5节点/root路径下创建first_shell.sh,内容如下: #! score_info(id int,name string,score int) row format delimited fields terminated by '\t'; 向表 person_info加载如下数据 : 1 zs 18 2 ls 19 3 ww 20 向表score_info加载如下数据: 1 zs 100 2 ls 200 3 ww 300 2、在node4节点配置Hive 客户端 由于Airflow

    9.4K55编辑于 2022-09-21
  • 来自专栏人称T客

    移动应用开发平台5问题揭秘

    一旦原生代码生成便难以“整理“及难以定制个体应用 因为是机器生成代码,所以会产生过剩代码,使之难以管理与维护 这种机器生成码的表现也不佳,因为代码必须要被设备“消化” 不能增加“(特色功能)”(HTML5, 对于想要针对特定需求,安排内部人员定制与延展平台的企业而言,缺乏控制度与灵活度是一障碍。 应用更新换代速度快。企业内部开发人员多快可开发出五星级的应用? 应用前端(front end)貌似相当不错,那企业可放心地将该前端与定制的后端(backend)系统整合,以进行数据处理吗? 中间件层针对统一推送服务、数据加密、身份认证、应用版本管理等等提供了新颖的解决办法,使企业能够专注于打造下一个最棒的应用,而不必花时间来改造后端系统。然而通常,MADP供应商却让事情适得其反。 价格是企业衡量MADP的一因素。有些相当具有创意的定价方式往往让企业大吃一惊,因为这种定价含复杂的授权结构及隐藏的专业费用,会大大影响企业总成本。

    1.4K50发布于 2018-03-16
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯数据平台部总监刘煜宏:这5产品平台,展示了腾讯大数据的核心能力

    腾讯技术工程事业群数据平台部刘煜宏受邀参加“腾讯慧聚”品牌的发布仪式,并向在场嘉宾介绍了“腾讯慧聚”的5产品平台。 ? 十年磨一剑,砺得梅花香。 据刘煜宏介绍,腾讯慧聚当前共包括五平台:Dmaster(大数据一站式平台)、Tbase(海量事务处理平台)、TDbank(实时接入平台)、Hermes(实时多维分析平台)、TDinsight(机器学习基础平台 这五平台除了Dmaster是一个一站式、覆盖全流程的平台外,其他四个平台各有侧重。这也是腾讯根据多年服务不同类型客户的经验,所挖掘出的不同需求。 作为实时接入平台,TDbank具有的“高灵活、高可用、高吞吐、低延时”的核心优势,可以从业务数据源获取数据分发给离线/在线处理平台,构建数据源和数据处理系统间的桥梁,将数据处理系统同业务侧的数据源解耦。 实时多维分析平台Hermes,是腾讯针对交互式海量数据分析需求自主研发的数据多维分析平台,是腾讯处理千亿级海量数据用户画像和多维分析的核心技术与经验的积累。

    5K90发布于 2018-01-30
  • 来自专栏大数据学习笔记

    Hadoop基础教程-第5章 YARN:资源调度平台(5.1 YARN介绍)

    5章 YARN:资源调度平台 5.1 YARN介绍 YARN的全称是Yet Another Resource Negotiator,意为另一种资源调度者。 调度器(Scheduler),负责根据容量,队列等的熟悉约束,向各种运行的应用程序分配资源。调度程序是纯调度器,它不执行监视或跟踪应用程序的状态。 调度程序根据应用程序的资源需求执行其调度功能; 它基于包含诸如内存,cpu,磁盘,网络等元素的资源容器的抽象概念。 每个应用程序ApplicationMaster有责任从调度程序协商适当的资源容器,跟踪其状态并监视进度。 ApplicationMaster直接交互了 (4)在平常的操作过程中,ApplicationMaster根据resource-request协议向ResourceManager发送resource-request请求 (5

    80310编辑于 2022-05-06
  • 来自专栏TASKCTL技术交流讨论

    数据仓库ETL管理平台TASKCTL调度计划控制原理

    可使用连串数据:成功返回值 0-10,警告返回值 11-30 等。注意:用户自定义的返回值只能是在 0-100 之间。 v 7.0 + 新增支持返回信息匹配作业程序的输出信息。 远程调度与负载均衡 运程调度指当作业程序未部署在相应调度服务上时,调度服务器需要通过执行代理控制相应程序。 就拿以上调度示例为例,只需在 agent3 下级联从代理并与上级代理做相同的作业程序部署即可完成负载均衡调度。 相对于代理模式来讲,无代理由于无需在受控目标机器部署相应的软件,即可调度控制相应的作业程序。这种变化,让调度控制空间格局,得到彻底的延展变化,极大拓展了调度的应用场景。这种场景适合运维管理自动化。 说明:该例表明如果自定义程序 myexe(并带两个参数 1 与 2)的执行结果是 5 时, 执行当前作业,否则继续等待。

    1.4K20编辑于 2022-05-10
领券