首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据社

    ETL的灵魂:调度系统

    任务调度系统已经俨然成为了大数据处理平台不可或缺的一部分,可以说是ETL任务的灵魂。 01 原始任务调度 ? (但是到随着业务的发展,ETL任务越来越多,你会发现经常有任务因为资源问题没有按时启动!) 实际调度中,多个任务单元之间往往有着强依赖关系,上游任务执行并成功,下游任务才可以执行。 但很多从业者连 ETL 对应的英文是什么都不了解,更不要谈对 ETL 的深入解析,这无疑是非常不称职的。 由于ETL是极为复杂的过程,而手写程序不易管理,所以越来越多的可视化调度编排工具出现了。 调度系统作为大数据平台的核心部分之一,牵扯的业务逻辑比较复杂,场景不同,也许需求就会差别很多,所以,有自研能力的公司都会选择市面上开源系统二次开发或者完全自研一套调度系统,已满足自身ETL任务调度需求。

    2.1K10发布于 2021-07-09
  • 来自专栏TASKCTL技术交流讨论

    ETL批量调度工具TASKCTL核心调度节点安装

    而代理层完成与目标服务器(ETL等)的控制交互。代理层通过主从代理级联方式,可实现对集群部署的服务器进行调度控制,实现负载均衡等。 目标层,是整个产品所控制的目标,比如我们的ETL服务器,作业工作站等。 产品核心安装 产品核心由核心调度服务节点和核心调度代理节点构成,它们协同工作,共同完成后台核心的各种功能。所以产品核心安装分为核心调度服务节点安装、核心调度代理节点安装。 一个平台必须安装且只能安装一个核心调度服务节点,而核心调度代理节点则根据实际情况安装部署,核心调度服务节点中已经集成了一个核心调度代理,当单机部署时,只用安装核心调度服务节点即可。 核心调度代理节点安装 产品核心由核心调度服务节点和核心调度代理节点构成,默认的单机部署只用安装服务节点即可;当有跨服务器的调度需求时,我们就需要通过安装代理来满足需求。

    80840编辑于 2022-03-11
  • 来自专栏TASKCTL技术交流讨论

    ETL是BI(商业智能)的基础,调度ETL的灵魂

    ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程 你想啊,数据的由来都是ETL实现的,以后所有的数据处理,不都是要依靠这些抽取来的数据。 所以说ETL是BI商业智能的基础, 调度ETL的灵魂,我们首先讲讲调度的功能。 ETL调度功能说明 调度维护 1) 调度系统参数维护,对调度系统的公共参数:期数、进程数、数据日期、本期开始日期和本期结束日期进行设置和修改。 作业调度 正常情况下的作业调度,对整个ETL过程进行调度,提供分段提交处理和自动提交处理功能。 可调度的Job类型 1) C程序(清洗),ETL调度提供与C程序的接口,从而可以对C程序进行调度。 所以说调度ETL的灵魂。

    92830发布于 2020-06-12
  • 来自专栏TASKCTL技术交流讨论

    【开源】etl作业调度工具性能综合对比

    最近遇到了很多正在研究ETL及其工具的伙伴向我们抱怨:同样都在用 Kettle ,起点明明没差异,但为什么别人ETL做的那么快那么好,自己却不断掉坑? 今天我们就先对其中一个比较火热的“App”——调度工具,做一个简单的评测对比,帮助大家快速解锁用开源工具做 ETL 的新姿势。 为什么需要调度系统? 开局我们先扫盲。 调度工具对比 Oozie Oozie:训象人(调度mapreduce)。 人工干预多样化:正常调度,自由调度,虚拟调度。强制中断、强制通过、禁用通过、预设断点、忽略条件等; 支持作业优先级配置:平台级、流程级和作业级并行控制、资源权重设置。动态设置作业优先级置顶等操作。 当然taskctl不仅仅是一个功能全面的工作流调度工具,作为一个一站式大数据平台,它同时涵盖以下功能,无论是简单的 ETL 工作,还是复杂的数据中台构建工作,使用taskctl都可以完成。

    2.4K20发布于 2020-06-22
  • 来自专栏TASKCTL技术交流讨论

    etl作业部署与调度——taskctl管理概述

    TASKCTL作为一款作业自动化调度控制工具,可广泛应用于各种IT应用建设、实施各种IT设施维护管理中。其中大数据领域ETL以及批量作业自动化调度,是TASKCTL最典型的应用之一。 2服务端通过代理模式、无代理模式,使调度服务器可以远程调度控制更多的业务主机 3调度服务器采用主备单活模式,实现服务高可靠 4服务端代理采用主从模式,实现业务主机集群控制。 (一) 核心功能 所谓核心功能,主要指TASKCTL可以调度哪些类型的作业,可以实现什么样的自动化控制调度,并以什么样的方式控制庞大的网络远程调度。 cs版主界面 bs版主界面 (三) 扩展功能 扩展功能主要包括: (1)作业类型插件扩展 通过统一作业类型扩展机制,用户可以通过开发自己驱动插件,让TASKCTL支持您基于不同技术平台(各种数据库、ETL 用户可以通过开发自己驱动插件,让TASKCTL支持您基于不同技术平台(各种数据库、ETL工具、语言、以及大数据平台等),不同应用规则的作业类型。 7.无代理远程调度 一机简单部署,全网轻松受控。

    1.2K10发布于 2020-06-16
  • 来自专栏TASKCTL技术交流讨论

    etl调度工具必备的10个功能属性

    说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握taskctl的使用。 今天主要先描述ETL工具的通用功能。 而生产环境一般是Linux系统或集群,你的ETL解决方案应该可以无缝地在这些系统间切换。 ETL工具的功能之三:数据规模 一般ETL能通过下面的3种方式来处理大数据。 并发:ETL过程能够同时处理多个数据流,以便利用现代多核的硬件架构。 分区:ETL能够使用特定的分区模式,将数据分发到并发的数据流中。 集群:ETL过程能够分配在多台机器上联合完成。 ETL工具的功能之四:设计灵活性 一个ETL工具应该留给开发人员足够的自由度来使用,而不能通过一种固定的方式来限制用户的创造力和设计的需求。ETL工具可以分为基于过程的和基于映射的。 ETL工具的功能之六:扩展性 大家都知道,几乎所有的ETL工具都提供了脚本,以编程的方式来解决工具本身不能解决的问题。另外,还有少数几款ETL工具可以通过API或其他方式为工具增加组件。

    1.9K30发布于 2020-07-07
  • 来自专栏TASKCTL技术交流讨论

    深入浅出的etl调度工具TASKCTL

    没有批量调度自动化的数据管理、数据整合等ETL工作,就像一家大公司没有领导,所有工作必将变得紊乱、低效、失控。 没错,批量调度自动化技术对数据整合、对各种各样的ETL,就像领导对公司的意义。 因此,将该技术独立化、系统化、专业化、工具化、产品化,必将给整个ETL技术领域、数据整合领域带来很大的帮助,让整个数据整合技术世界变得更美好。 控制层 控制层是多级金字塔架构,顶层为服务控制节点,完成各种调度服务控制以及为客户端提供各种操作应用服务。而代理层完成与目标服务器(ETL等)的控制交互。 另,代理层通过主从代理级联方式,可实现对集群部署的服务器进行调度控制,实现负载均衡等。 目标层 目标层,是整个产品所控制的目标,比如我们的ETL服务器,作业工作站等。 特别是依赖控制,系统通过串行、单点依赖、事件依赖以及自定义条件等机制,可以实现作业流内、不同作业流、不同ETL作业服务器以及不同业务日期、不同批次间任意作业的依赖控制。

    1.9K60编辑于 2022-03-28
  • 来自专栏TASKCTL技术交流讨论

    数据仓库ETL管理平台TASKCTL调度计划控制原理

    执行计划控制 执行计划控制策略在调度应用中非常普遍,是调度控制策略中最重要的策略之一。执行计划指作业的运行周期,简单说,指一个作业什么时候需要运行,比如:每周一、每月初、每月底以及季末等。 远程调度与负载均衡 运程调度指当作业程序未部署在相应调度服务上时,调度服务器需要通过执行代理控制相应程序。 就拿以上调度示例为例,只需在 agent3 下级联从代理并与上级代理做相同的作业程序部署即可完成负载均衡调度。 如下图所示: ​利用 hostuser 实现远程调度 从 v6.0+开始,TASKCTL 为用户提供统一的无代理远程调度机制。 相对于代理模式来讲,无代理由于无需在受控目标机器部署相应的软件,即可调度控制相应的作业程序。这种变化,让调度控制空间格局,得到彻底的延展变化,极大拓展了调度的应用场景。这种场景适合运维管理自动化。

    1.4K20编辑于 2022-05-10
  • 来自专栏TASKCTL技术交流讨论

    etl调度工具Taskctl——稳定强大web版“0元授权”

    轮班制导致公司运维人员工作量大幅增加;塔斯克信息技术公司经领导研究决定为了履行社会责任,积极回报社会,帮助在此疫情期间受影响的企业减少运维资金支出、提升工作效率、保证后台数据安全,工作需求场景能够应用到的ETL 批量作业调度工具的,为此公司技术团队集中人力耗时6个月在原有商用版Taskctl 6.0衍生出现有的web端 Taskctl Free应用版 Taskctl Free应用版是专门为批量作业调度自动化打造的一款轻便型敏捷调度工具 可为批量作业自动化调度者提供简单的方法来管理各类复杂作业的调度和监控管理。 Taskctl通过将企业内部复杂的作业调度依赖关系,进行灵活的统一编排和管理,带来前所未有的简单性。 Taskctl采用全内存计算,基于全事件技术驱动,可简单、快速地对作业进行定义、编排和执行,并生成优化调度执行建议,从而负载均衡执行作业调度。 Taskctl作为敏捷批量调度的开拓者,产品设计从一开始就专门为整洁的体验而设计,并提供丰富、直观的用户界面,以简化常见的作业调度执行编排流程。

    1.1K70发布于 2020-11-13
  • 来自专栏TASKCTL技术交流讨论

    这些常用ETL批量调度平台框架组件,你都知道几个?

    Cron-like Scheduler 1.1 Python任务调度框架 APScheduler 一个基于Python,提供类似Cron功能,并深受Java Quartz 影响的轻量级进程内任务调度框架 商业免费工具: TASKCTL Web应用版 TASKCTL免费Web版作为目前唯一的ETL调度领域商业级免费软件,保证100% free,绝无黑盒代码。 它志在促进该领域的独立发展,使调度ETL领域独立化、专业化、系统化。从而使项目实施更轻松便捷,使企业基础架构更清晰、更易管理。 推荐阅读:《10万级etl作业批量调度工具Taskctl之轻量级Web应用版》 (一)主要适用环境 操作系统:aix/linux/unix等(由于采用标准c语言构建,理论上可应用于各种主流unix系列) 项目规模:适用于中小型ETL项目 ETL工具环境:TASKCTL由于采用任务插件驱动机制,因此,可支持各种存储过程、各种脚本、以及诸如Datastage\Informatica\kettle等各种ETL

    1.5K40发布于 2021-01-06
  • 来自专栏TASKCTL技术交流讨论

    【国产】大数据ETL自动化调度运维专家TASKCTL

    具备可视化图形拖拽式设计界面,可视化作业管控、计划调度、实时监控、消息提醒和日志分析功能;有效弥补了传统ETL工具在调度管理和监控分析方面不足;同时平台还提供元数据管理、数据关系分析、版本控制、日志分析等完善的辅助管理功能 是的,批量调度自动化技术对数据整合、对各种各样的ETL,就像领导对公司的意义。同时,批量调度自动化技术又向优秀的职业经理人,没有行业的限制,它是一种与业务无关的纯技术体系。 因此,将该技术独立化、系统化、专业化、工具化、产品化,必将给整个ETL技术领域、数据整合领域带来很大的帮助,让整个数据整合技术世界变得更美好。 控制层  控制层是多级金字塔架构,顶层为服务控制节点,完成各种调度服务控制以及为客户端提供各种操作应用服务。而代理层完成与目标服务器(ETL等)的控制交互。 另,代理层通过主从代理级联方式,可实现对集群部署的服务器进行调度控制,实现负载均衡等。 目标层  目标层,是整个产品所控制的目标,比如我们的ETL服务器,作业工作站等。

    1.2K20编辑于 2022-05-27
  • 来自专栏TASKCTL技术交流讨论

    金融服务业etl作业集群统一调度平台搭建

    2.1.4、利用现有ETL工具的调度功能 随着银行信息化发展,特别是数据仓库的建立,并以此为基础建立的更多数据类、管理类系统,或多或少都在采用一些专业的ETL工具来实现批量处理,并结合工具本身的调度组件完成相应批量调度处理工作 5.2.3.2、多ETL服务器项目群部署方案 该部署方案主要针对具有多个批量处理服务器或多个ETL服务器的应用系统。 在具体部署时,首先需要部署一个独立技术平台Server,并在多个具体的批量或ETL服务器上部署技术平台核心代理Agent组件,通过Server与Agent之间通信实现对具批量或ETL服务器部署的作业的调度 ● 执行计划调度 执行计划指时间执行计划,这在ETL处理中是尤为重要的,比如任务按日执行、按周执行、按月执行都是属于执行计划。 因此基本都各自采用了不同的批量调度方案,有的采用ETL工具Datastage自带的调度方案,有的是应用系统自身开发的调度方案,还有的采购了额外的调度工具等等。

    2.5K40发布于 2020-06-18
  • 来自专栏TASKCTL技术交流讨论

    ETL调度运维自动化工具 TASKCTL 流程文件系统

    传统设计思路 在调度业界,流程核心信息主要组织思路为:将作业节点化,并将作业控制策略属性化,其中依赖关系、并行关系是最主要的控制策略内容。 关系表达图形思路在 ETL 调度界,流程图主要根据流程作业节点以及节点关系进行表达。图形表达如下: ​由图可知,该图简洁且直观描述了各作业的依赖关系与并行关系。 flowname-流程名称 流程名称是调度平台对流程的关键索引信息,使用时注意以下几点: 唯一性:流程名称相对调度服务器是唯一的,不能重复 长度:流程名称长度不能超过 20 个字符 输入限制:名称不能数字开头 issubflow 是否为子流程 子流程是 TASKCTL 调度平台重要概念,它从信息内容上与普通流程没区别。唯一区别是:子流程能被其他普通流程调用。 TASKCTL 引入子流程概念的主要目的:一方面与模块一样,是为了有效结构化管理流程信息,另一方面,是为了达到更佳的调度控制效果。

    83820编辑于 2022-05-05
  • 来自专栏全栈程序员必看

    ETL是什么_ETL平台

    ---- 三、ETL的流程 ETL如同它代表的三个英文单词,涉及三个独立的过程:抽取、转换和加载。工作流程往往作为一个正在进行的过程来实现,各模块可灵活进行组合,形成ETL处理流程。 在ETL架构中,数据的流向是从源数据流到ETL工具,ETL工具是一个单独的数据处理引擎,一般会在单独的硬件服务器上,实现所有数据转化的工作,然后将数据加载到目标数据仓库中。 如果要增加整个ETL过程的效率,则只能增强ETL工具服务器的配置,优化系统处理流程(一般可调的东西非常少)。 ---- 4、ETL日志与警告发送 (1)ETL日志 记录日志的目的是随时可以知道ETL运行情况,如果出错了,出错在那里。 如果使用ETL工具,工具会自动产生一些日志,这一类日志也可以作为ETL日志的一部分。

    2.6K31编辑于 2022-09-20
  • 来自专栏TASKCTL技术交流讨论

    批量ETL任务调度运维平台 TASKCTL 作业互斥与强制依赖

    另外,互斥只能对部署在同一调度服务器的流程生效,互斥资源名称的异同也是相对同一调度服务器而言。对于不同调度服务器之间的流程不会产生任何关系。 执行计划控制策略 执行计划控制策略在调度应用中非常普遍,是调度控制策略中最重要的策略之一。执行计划指作业的运行周期,简单说,指一个作业什么时候需要运行,比如每周一、每月初、每月底以及季末等。

    65130编辑于 2022-05-06
  • 来自专栏TASKCTL技术交流讨论

    10万级etl调度软件Taskctl-web版免费永久授权

    初识Taskctl-Web版 Taskctl Free应用版原型是在原有商用版Taskctl 6.0衍生扩展开发出的专门为批量作业调度自动化打造的一款轻便型敏捷调度工具。 可为批量作业自动化调度者提供简单的方法来管理各类复杂作业的调度和监控管理。 Taskctl通过将企业内部复杂的作业调度依赖关系,进行灵活的统一编排和管理,带来前所未有的简单性。 Taskctl采用全内存计算,基于全事件技术驱动,可简单、快速地对作业进行定义、编排和执行,并生成优化调度执行建议,从而负载均衡执行作业调度。 Taskctl-Web应用版遵循软件产品标准化的原则,以“专业、专注”为设计理念,结合 ETL 调度领域自身的特点,构建了一套直观易用的 ETL 控制容器调度设计、监控 、维护、管理平台 Taskctl-Web-Application 登录界面 平台部署的时候,已经确定了调度服务端信息。因此不必再像桌面客户端一样需要输入调度服务端地址。

    1.4K00发布于 2020-11-16
  • 来自专栏TASKCTL技术交流讨论

    全新ETL调度批量管理工具 TASKCTL 8.0 最简安装

    认识 TASKCTL TASKCTL是成都塔斯克信息技术有限公司,专为批量作业调度自动化打造的,一款敏捷调度工具。 产品以 “专业、专注” 为设计理念,结合 ETL 调度技术领域的特点,构建了一套直观易用的 ETL 调度设计、监控 维护、管理平台。 TASKCTL主要实现对ETL作业、存储过程、SQL语句、shell脚本、DS作业等多类型作业的自动化编排和调度,既可用于帮助用户轻松构建自动化、规范化批量调度管理平台,也可用于支撑大数据时代下数据流向的调度管理自动化等 对设计好的调度元信息进行运行监控以及人工操作干预。对运行信息进行查询、统计、分析等。 登陆界面 平台部署的时候,已经确定了调度服务端信息。因此不必再像桌面客户端一样需要输入调度服务端地址。 ​ 安装程序会依次安装字符界面客户端、核心调度服务控制节点,并要求输入调度服务节点IP地址和服务节点监听端口号。

    1.1K30编辑于 2022-04-21
  • 来自专栏TASKCTL技术交流讨论

    【国产免费】分布式ETL作业调度处理平台TASKCTL变量属性设置

    在整个调度应用过程,该值可能会根据用户的行为进行修改。比如业务日期类变量。 长度:变量值长度不能超过 200 个字符 变量类型 TASKCTL 调度平台变量类型主要分三类:日期类(date)、普通类(comm)、常量(const)。 一般情况下, 此类变量在调度应用过程会随不同调度批次的变化而变化。 普通类:普通类变量是相对日期类而言的。 是否加密 流程变量可能会涉及到一些系统的敏感信息,比如:用户密码,为了信息的安全性,TASKCTL 调度对变量增加的是否加密属性,对于加密的变量值,用户是不可见的。 自定义作业类型标签 自定义作业指 ETL 中用户开发的各种作业,比如:shell、datastage 类作业等。对此类作业标签关键字是由用户自定义确定。

    91030编辑于 2022-05-07
  • 来自专栏TASKCTL技术交流讨论

    国产自动化ETL调度运维工具 TASKCTL 控制容器概述

    理解作业控制器,我们首先需理解调度中与控制容器(流程、定时器)相关的几个基本概念,它们分别是:作业、控制器、流程、定时器和调度。 作业:在系统后台处理中,我们经常把具有相关业务逻辑的处理由一个单独的执行代码、脚本、存储过程以及诸如 DataStage 第三方 ETL 工具开发的程序来完成,比如:数据计算、文件拷贝、数据导入等。 调度:根据不同控制器的不同配置信息,将不同控制器的作业按要求执行过程就称为调度调度核心通过解析按照项目需求开发的流程信息,从而完成项目的调度需求。 由此可知,流程信息是整个调度的核心信息,对调度的实际运行起到决定性作用。 流程结构 我们分别了解控制器的基本概念与作用。 模块文件 在实际 ETL 应用中,一个流程可能包含几百甚至上千个作业,使其作业基本信息与相关控制策略等信息非常庞大,为了有效管理这些信息,TASKCTL 引入模块概念,模块指具有一定关系的作业集合。

    92430编辑于 2022-04-28
  • 来自专栏架构之巅

    ETL

    数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步 而ETL则是主要的一个技术手段。如何正确选择ETL工具?如何正确应用ETL?    实现ETL,首先要实现ETL转换的过程。 一个优秀的ETL设计应该具有如下功能:   管理简单;采用 元数据方法,集中进行管理;接口、数据格式、传输有严格的规范;尽量不在外部数据源安装软件;数据抽取系统流程自动化,并有自动调度功能; Administration and operation 可让管理员基于事件和时间进行调度、运行、监测ETL作业、管理错误信息、从失败中恢复和调节从源系统的输出。

    7.1K32发布于 2020-11-09
领券