搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
ETL是什么_ETL平台
1、数据抽取数据抽取指的是从不同的网络、不同的操作平台、不同的数据库和数据格式、不同的应用中抽取数据的过程。目标源可能包括ERP、CRM和其他企业系统，以及来自第三方源的数据。整个操作过程往往要跨网络、跨操作平台。在ETL架构中，数据的流向是从源数据流到ETL工具，ETL工具是一个单独的数据处理引擎，一般会在单独的硬件服务器上，实现所有数据转化的工作，然后将数据加载到目标数据仓库中。 ---- 4、ETL日志与警告发送（1）ETL日志记录日志的目的是随时可以知道ETL运行情况，如果出错了，出错在那里。如果使用ETL工具，工具会自动产生一些日志，这一类日志也可以作为ETL日志的一部分。
2.8K31编辑于 2022-09-20
来自专栏卡尼慕
大数据平台架构+ETL
1 ETL，Extraction-Trasformation-Loading，即数据读取，转换，装载的过程，是构建数据仓库的重要环节。 ETL是将业务系统的数据经过抽取，清洗转换之后加载到数据仓库的过程，目的是将企业中的额分散的，零乱的，标准不统一的数据整合到一起，为企业决策提供分析依据。ETL是BI项目中重要的一个环节。 ETL的实现方法： 1、借助ETL工具。（如OWB，DTS，SSIS等）实现。 2、SQL方法实现。 3、ETL工具与SQL相结合。工具降低难度，但缺少灵活性。SQL灵活但编码复杂，因此结合两者。 2 大数据平台架构 ? 首先，对于做大数据开发而言，平台的监控与报警和平台管理不归我们管，主要是给运维人员做的事情。我们要做的就是中间的事情。然后来看看数据基础平台。接着看数据应用平台。元数据管理。这边的元数据要存储到关系型数据库中。作业平台管理，就是任务调度。交互分析就关系到sql语句。多维分析主要是对数据的维度分析，如按年分析，按月分析，按周分析等。
2.5K21发布于 2019-09-09
来自专栏架构之巅
ETL
ETL ETL，Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载。而ETL则是主要的一个技术手段。如何正确选择ETL工具？如何正确应用ETL？　　实现ETL，首先要实现ETL转换的过程。数据模型：标准定义数据　　合理的业务模型设计对ETL至关重要。数据仓库是企业唯一、真实、可靠的综合数据平台。 ETL体系结构　　下图为ETL体系结构，它体现了主流ETL产品框架的主要组成部分。
7.2K32发布于 2020-11-09
来自专栏etl
国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本
该产品由etl-engine引擎和etl-designer云端设计器及etl-crontab调度组成。 etl-engine引擎负责解析ETL配置文件并执行ETL任务； etl-designer云端设计器通过拖拉拽的方式生成etl-engine引擎可识别的ETL任务配置文件； etl-crontab调度设计器负责按时间周期执行指定的 ETL任务，及查询ETL任务执行日志功能。图片图片图片图片应用场景异构系统数据交换传统行业各业务系统数据相对独立，随着信息平台一体化、数据中台及大数据时代的推进，要求各业务系统数据相互融合，业务资源共享。跨平台直接编译成二进制文件，支持跨平台执行（windows、linux、mac），只需要一个可执行文件和一个配置文件就可以运行，无需其它依赖。
2.4K20编辑于 2023-04-02
来自专栏Albert陈凯
Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL
离线数据分析平台实战——260用户数据ETL ETL目标解析我们收集的日志数据，将解析后的数据保存到hbase中。在etl过程中，我们需要将我们收集得到的数据进行处理，包括ip地址解析、userAgent解析、服务器时间解析等。 ETL存储 etl的结果存储到hbase中，由于考虑到不同事件有不同的数据格式，所以我们将最终etl的结果保存到hbase中，我们使用单family的数据格式， rowkey的生产模式我们采用 Class com.beifeng.etl.mr.ald.AnalyserLogDataMapper not found 解决方案：引入EJob.java文件，然后再runner ; import com.bjsxt.ae.etl.util.ip.IPSeeker; /** * 定义具体的ip解析的类，最终调用IpSeeker类(父类)
* 解析ip最终的返回时
1.2K60发布于 2018-04-08
来自专栏TASKCTL技术交流讨论
数据仓库ETL管理平台TASKCTL调度计划控制原理
执行计划控制策略在调度应用中非常普遍，是调度控制策略中最重要的策略之一。执行计划指作业的运行周期，简单说，指一个作业什么时候需要运行，比如：每周一、每月初、每月底以及季末等。
1.5K20编辑于 2022-05-10
来自专栏大数据进阶
flink etl
这种 join 方式需要去保留两个流的状态，持续性地保留并且不会去做清除。两边的数据对于对方的流都是所有可见的，所以数据就需要持续性的存在state里面，那么 state 又不能存的过大，因此这个场景的只适合有界数据流或者结合ttl state配合使用。它的语法可以看一下，比较像离线批处理的 SQL
1.5K40发布于 2021-07-14
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。基于E阶段数据集中到数据平台，我们通过范式来实现数据的建模，目前应用比较广的是多维建模，通过维度和事实构建数据的关系。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。数据平台工程师，主要职责是构建数据工具，搭建数据处理的环境体系，需要基于业务场景构建数据同步工具，自动报表系统，数据api工具等等。数仓开发工程师，主要工作是构建数据的组织和管理，构建数仓体系。
2.6K50编辑于 2022-05-05
部署及使用 etl crontab 和 etl engine
(环境配置文件，使用etl_crontab必须) etllog_mysql.sql (日志表结构文件，使用etl_crontab必须) etl_crontab.exe (管理端，用于配置etl任务、配置调度定期执行etl_engine、查看日志等功能) etl_engine.exe (ETL引擎，用于解析执行ETL任务，必须) engineFile 引擎文件存放位置（默认配置 d:/etl_crontab/etl_engine.exe） confDir etl任务配置文件所在目录（默认配置d:/etl_crontab 4、启动etl_crontab（管理端）执行以下命令： etl_crontab.exe -fileUrl conf.cron etl_crontab.exe运行后 5、执行etl_engine（根据实际情况使用） 1）由etl_crontab调度负责调用etl_engine执行，不需要人为干预。
67910编辑于 2024-12-30
来自专栏etl
ETL 是什么 ETL 工具有哪些 ETL 数据交换系统
ETL重要性ETL是实现商务智能(Business Intelligence,BI)的核心。一般情况下,ETL会花费整个BI项目三分之一的时间，因此ETL设计得好坏直接影响BI项目的成败。 ETL工具有哪些datastage （收费）最专业的ETL工具， 2005年被IBM收购，目前发展到11.7版本。 etl-engine （免费）用go语言实现的ETL工具，轻量级引擎、跨平台（windows，linux，unix，mac）、可嵌入go语言脚本并解析执行，方便集成到各种项目中参考资料 [资源下载]( https://github.com/hw2499/etl-engine/releases) [etl-engine使用手册](https://github.com/hw2499/etl-engine ) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA%A6) [嵌入脚本开发
2.9K10编辑于 2023-02-01
来自专栏数据科学与人工智能
【ETL工程】大数据技术核心之ETL
大数据平台架构：我想这幅架构图，对大数据处理的人来说，应该不是很陌生。 IaaS：基础设施即服务。基于Internet的服务（如存储和数据库）。 PaaS：平台即服务。大数据技术之数据采集ETL：这里不过多的说数据采集的过程，可以简单的理解：有数据库就会有数据。这里我们更关注数据的ETL过程，而ETL前期的过程，只需要了解其基本范畴就OK。在数据挖掘的范畴了，数据清洗的前期过程，可简单的认为就是ETL的过程。ETL的发展过程伴随着数据挖掘至今，其相关技术也已非常成熟。这里我们也不过多的探讨ETL过程，日后如有涉及，在细分。在做ETL的过程中，也随之产生于一些ETL工具，如Datastage、Powercenter、ETLAutomation。异常处理在ETL的过程中，必不可少的要面临数据异常的问题，处理办法： 1. 将错误信息单独输出，继续执行ETL，错误数据修改后再单独加载。中断ETL，修改后重新执行ETL。原则：最大限度接收数据。
3.7K100发布于 2018-02-27
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。基于E阶段数据集中到数据平台，我们通过范式来实现数据的建模，目前应用比较广的是多维建模，通过维度和事实构建数据的关系。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。数据平台工程师，主要职责是构建数据工具，搭建数据处理的环境体系，需要基于业务场景构建数据同步工具，自动报表系统，数据api工具等等。数仓开发工程师，主要工作是构建数据的组织和管理，构建数仓体系。
1.4K30编辑于 2022-06-21
来自专栏Hadoop数据仓库
Kettle构建Hadoop ETL实践（一）：ETL与Kettle
开发ETL系统的方法 ETL系统一般都会从多个应用系统整合数据，典型的情况是这些应用系统运行在不同的软硬件平台上，由不同的厂商所支持，各个系统的开发团队也是彼此独立的，随之而来的数据多样性增加了（2）平台独立一个ETL工具应该能在任何平台上甚至是不同平台的组合上运行。 Kettle在设计上就是可扩展的，它提供了一个插件平台。这种插件架构允许第三方为Kettle平台开发插件。Kettle里的所有组件都是插件，即使是默认提供的组件。完全跨平台 Kettle是基于Java的解决方案，因此天然继承了Java跨平台性。这样只要有合适的JVM存在，转换或作业就能运行在任何环境和平台之上，真正做到与平台无关。以我个人的经验而言，只要是和关系数据库打交道，很多情况ETL通过SQL就能搞定。
6.3K79发布于 2020-08-17
来自专栏TASKCTL技术交流讨论
这些常用ETL批量调度平台框架组件，你都知道几个？
它志在促进该领域的独立发展，使调度在ETL领域独立化、专业化、系统化。从而使项目实施更轻松便捷，使企业基础架构更清晰、更易管理。项目规模：适用于中小型ETL项目 ETL工具环境：TASKCTL由于采用任务插件驱动机制，因此，可支持各种存储过程、各种脚本、以及诸如Datastage\Informatica\kettle等各种ETL 扩展功能网络扩展：可实现单机部署、多服务部署、远程代理部署、集群部署等多种网络部署应用扩展：技术平台设计有专门的应用API接口，可实现更多的调度应用。 (三) 主要创新无数据库设计：国内首款专业无数据库调度技术平台。插件机制：业界唯一通过具有统一应用接口的插件来扩展任务类型的技术平台。流程设计代码开发设计理念：调度领域唯一通过文本代码设计流程的调度技术平台。具有语法代码特征的文本代码设计与传统记录表格对话框方式相比，操作更方便、设计更灵活、可读性更强。
1.6K40发布于 2021-01-06
来自专栏技术杂记
ETL CSV to Elasticsearch
record): for i in record: record[i]=str(record[i]).encode('utf-8') return record def etl_csv_to_es es.indices.flush(index=[indexName]) return (True,count) #main if __name__ == "__main__": res,num = etl_csv_to_es
2.9K30发布于 2021-08-11
来自专栏etl
hive etl 通过 ETL engine 读取 Hive 中的数据
etl-engine支持对Hive的读取，并输出到以下目标数据源：消息中间件（Kafka | RocketMQ）; 关系型数据库（ Oracle | MySQL | PostgreSQL | Sqlite ）; NoSQL（Elasticsearch | Redis）; 时序数据库（ InfluxDB | ClickHouse | Prometheus）; 文件（ Excel ）； etl-engine支持参考资料 [免费下载](https://github.com/hw2499/etl-engine/releases) [etl-engine使用手册](https://github.com/hw2499 /etl-engine) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA %A6) [嵌入脚本开发](https://github.com/hw2499/etl-engine/wiki/%E5%B5%8C%E5%85%A5%E8%84%9A%E6%9C%AC%E5%BC%
3K50编辑于 2023-02-28
来自专栏TASKCTL技术交流讨论
金融服务业etl作业集群统一调度平台搭建
（四）作业类型支持的统一性与可扩展性银行现有批量作业类型非常复杂，有各种技术平台脚本、SQL、存储过程以及各种ETL工具的作业，未来，还不可避免引入更多新的技术平台来完成各种批量作业。其特征是无须独立服务器，只需在具体应用系统的批量或相应ETL服务器上部署技术平台Server即可。用户可以直接通过技术平台标准客户端（图形客户端、字符界面客户端）操作管理对应的调度系统。 5.2.3.2、多ETL服务器项目群部署方案该部署方案主要针对具有多个批量处理服务器或多个ETL服务器的应用系统。在具体部署时，首先需要部署一个独立技术平台Server，并在多个具体的批量或ETL服务器上部署技术平台核心代理Agent组件，通过Server与Agent之间通信实现对具批量或ETL服务器部署的作业的调度用户可以直接通过技术平台标准客户端（图形客户端、字符界面客户端）操作管理，并实现调度管理，以及各个ETL服务器上作业的运行监控。
2.7K40发布于 2020-06-18
来自专栏ApacheHudi
万字长文揭秘如何衡量云数据平台 ETL 性价比
无论团队是深度投入还是对云数据平台的成本控制越来越感兴趣，了解 ETL 性价比对于成功都至关重要。在本博客中，我们重点介绍了当今标准基准测试规范和工具中的差距，这些差距使企业难以准确建模其 ETL 工作负载并衡量跨平台或供应商的总拥有成本[3]。这种转变还影响了下游 ETL 在数据平台内处理数据的预期方式。毕竟，如果 ETL 管道每天或每天处理几次数据，那么近乎实时地摄取数据并不是很有用。下表反映了当前状况：现代数据平台对 ETL 工作负载和生态系统中普遍存在的工具的基准测试程度。该方法偏爱在花费最多计算时间的阶段中性能更好的数据平台。图：提议的 ETL 基准测试方法这种务实的方法平衡了 ETL 基准测试中的已知差距与我们拥有和已经信任的差距。
71520编辑于 2025-05-19
来自专栏TASKCTL技术交流讨论
批量ETL任务调度运维平台 TASKCTL 作业互斥与强制依赖
在上图中，两个作业 GetData1 与 GetData3 按串并关系，本来是可以同时运行的作业，但由于通过 ostr 属性设置相同互斥资源，从而使它们实现互斥并不能同时运行。
73430编辑于 2022-05-06
来自专栏全栈程序员必看
java etl 简单实例_东方通ETL开发实例
东方通ETL开发实例下面通过一个简单的“Oracle CDC增量抽取”实例，带大家感受一下TIETL的开发思路和强大的数据处理能力。功能需求：同一数据库(localhost_etl)下,现有cdc_source和cdc_target两张表如下: 表cdc_source 表cdc_target 现表cdc_source的增量(增、删
1.4K20编辑于 2022-08-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

ETL是什么_ETL平台

大数据平台架构+ETL

ETL

国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本

Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL

数据仓库ETL管理平台TASKCTL调度计划控制原理

flink etl

谈谈ETL

部署及使用 etl crontab 和 etl engine

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

【ETL工程】大数据技术核心之ETL

谈谈ETL

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

这些常用ETL批量调度平台框架组件，你都知道几个？

ETL CSV to Elasticsearch

hive etl 通过 ETL engine 读取 Hive 中的数据

金融服务业etl作业集群统一调度平台搭建

万字长文揭秘如何衡量云数据平台 ETL 性价比

批量ETL任务调度运维平台 TASKCTL 作业互斥与强制依赖

java etl 简单实例_东方通ETL开发实例

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ETL是什么_ETL平台

大数据平台架构+ETL

ETL

国产ETL etl-engine 可视化 轻量级 跨平台 支持动态解析GO语言脚本

Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL

数据仓库ETL管理平台TASKCTL调度计划控制原理

flink etl

谈谈ETL

部署 及 使用 etl crontab 和 etl engine

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

【ETL工程】大数据技术核心之ETL

谈谈ETL

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

这些常用ETL批量调度平台框架组件，你都知道几个？

ETL CSV to Elasticsearch

hive etl 通过 ETL engine 读取 Hive 中的数据

金融服务业etl作业集群统一调度平台搭建

万字长文揭秘如何衡量云数据平台 ETL 性价比

批量ETL任务调度运维平台 TASKCTL 作业互斥与强制依赖

java etl 简单实例_东方通ETL开发实例

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本

部署及使用 etl crontab 和 etl engine