搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
ETL是什么_ETL平台
---- 三、ETL的流程 ETL如同它代表的三个英文单词，涉及三个独立的过程：抽取、转换和加载。工作流程往往作为一个正在进行的过程来实现，各模块可灵活进行组合，形成ETL处理流程。在ETL架构中，数据的流向是从源数据流到ETL工具，ETL工具是一个单独的数据处理引擎，一般会在单独的硬件服务器上，实现所有数据转化的工作，然后将数据加载到目标数据仓库中。如果要增加整个ETL过程的效率，则只能增强ETL工具服务器的配置，优化系统处理流程（一般可调的东西非常少）。 ---- 4、ETL日志与警告发送（1）ETL日志记录日志的目的是随时可以知道ETL运行情况，如果出错了，出错在那里。如果使用ETL工具，工具会自动产生一些日志，这一类日志也可以作为ETL日志的一部分。
2.7K31编辑于 2022-09-20
来自专栏架构之巅
ETL
ETL ETL，Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载。，所以ETL可以定时进行。而ETL则是主要的一个技术手段。如何正确选择ETL工具？如何正确应用ETL？　　实现ETL，首先要实现ETL转换的过程。 ETL体系结构　　下图为ETL体系结构，它体现了主流ETL产品框架的主要组成部分。
7.1K32发布于 2020-11-09
来自专栏大数据进阶
flink etl
这种 join 方式需要去保留两个流的状态，持续性地保留并且不会去做清除。两边的数据对于对方的流都是所有可见的，所以数据就需要持续性的存在state里面，那么 state 又不能存的过大，因此这个场景的只适合有界数据流或者结合ttl state配合使用。它的语法可以看一下，比较像离线批处理的 SQL
1.4K40发布于 2021-07-14
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。
2.5K50编辑于 2022-05-05
部署及使用 etl crontab 和 etl engine
(环境配置文件，使用etl_crontab必须) etllog_mysql.sql (日志表结构文件，使用etl_crontab必须) etl_crontab.exe (管理端，用于配置etl任务、配置调度定期执行etl_engine、查看日志等功能) etl_engine.exe (ETL引擎，用于解析执行ETL任务，必须) engineFile 引擎文件存放位置（默认配置 d:/etl_crontab/etl_engine.exe） confDir etl任务配置文件所在目录（默认配置d:/etl_crontab 4、启动etl_crontab（管理端）执行以下命令： etl_crontab.exe -fileUrl conf.cron etl_crontab.exe运行后 5、执行etl_engine（根据实际情况使用） 1）由etl_crontab调度负责调用etl_engine执行，不需要人为干预。
56510编辑于 2024-12-30
来自专栏etl
ETL 是什么 ETL 工具有哪些 ETL 数据交换系统
ETL简介ETL是英文Extract-Transform-Load的缩写。用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 ETL重要性ETL是实现商务智能(Business Intelligence,BI)的核心。一般情况下,ETL会花费整个BI项目三分之一的时间，因此ETL设计得好坏直接影响BI项目的成败。 ETL工具有哪些datastage （收费）最专业的ETL工具， 2005年被IBM收购，目前发展到11.7版本。 https://github.com/hw2499/etl-engine/releases) [etl-engine使用手册](https://github.com/hw2499/etl-engine ) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA%A6) [嵌入脚本开发
2.8K10编辑于 2023-02-01
来自专栏数据科学与人工智能
【ETL工程】大数据技术核心之ETL
大数据技术之数据采集ETL：这里不过多的说数据采集的过程，可以简单的理解：有数据库就会有数据。这里我们更关注数据的ETL过程，而ETL前期的过程，只需要了解其基本范畴就OK。在数据挖掘的范畴了，数据清洗的前期过程，可简单的认为就是ETL的过程。ETL的发展过程伴随着数据挖掘至今，其相关技术也已非常成熟。这里我们也不过多的探讨ETL过程，日后如有涉及，在细分。在做ETL的过程中，也随之产生于一些ETL工具，如Datastage、Powercenter、ETLAutomation。过程：在整个数据仓库的构建中，ETL工作占整个工作的50%-70%。下面有人给出团队之间的ETL过程是如何实现的。在面临耗费绝大时间的分析过程中，要求第一点就是：团队协作性要好。异常处理在ETL的过程中，必不可少的要面临数据异常的问题，处理办法： 1. 将错误信息单独输出，继续执行ETL，错误数据修改后再单独加载。中断ETL，修改后重新执行ETL。原则：最大限度接收数据。
3.6K100发布于 2018-02-27
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。
1.4K30编辑于 2022-06-21
来自专栏Hadoop数据仓库
Kettle构建Hadoop ETL实践（一）：ETL与Kettle
ETL系统的工作就是要把异构的数据转换成同构的。如果没有ETL，很难对异构数据进行程序化的分析。 1. 这些数据经过ETL过程进入数据仓库系统。这里把ETL分成了抽取和转换装载两个部分。尽管这种数据整合方案由来已久，但直至今天仍有ETL工作使用这种手工编程/脚本的方式来完成。在还没有太多开源ETL工具的年代，相对价格昂贵的ETL工具而言，手工编程还有一定意义。 ETL的设计过程和直接用开发语言写程序很相似，也就是说在写程序时用到的一些步骤或过程同样也适用于ETL设计。测试也是ETL设计的一部分。当ETL项目规模比较大，有很多ETL开发人员在一起工作，开发人员之间的合作就显得很重要。
6.1K79发布于 2020-08-17
来自专栏技术杂记
ETL CSV to Elasticsearch
record): for i in record: record[i]=str(record[i]).encode('utf-8') return record def etl_csv_to_es es.indices.flush(index=[indexName]) return (True,count) #main if __name__ == "__main__": res,num = etl_csv_to_es
2.8K30发布于 2021-08-11
来自专栏etl
hive etl 通过 ETL engine 读取 Hive 中的数据
etl-engine支持对Hive的读取，并输出到以下目标数据源：消息中间件（Kafka | RocketMQ）; 关系型数据库（ Oracle | MySQL | PostgreSQL | Sqlite ）; NoSQL（Elasticsearch | Redis）; 时序数据库（ InfluxDB | ClickHouse | Prometheus）; 文件（ Excel ）； etl-engine支持参考资料 [免费下载](https://github.com/hw2499/etl-engine/releases) [etl-engine使用手册](https://github.com/hw2499 /etl-engine) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA %A6) [嵌入脚本开发](https://github.com/hw2499/etl-engine/wiki/%E5%B5%8C%E5%85%A5%E8%84%9A%E6%9C%AC%E5%BC%
2.9K50编辑于 2023-02-28
来自专栏全栈程序员必看
java etl 简单实例_东方通ETL开发实例
东方通ETL开发实例下面通过一个简单的“Oracle CDC增量抽取”实例，带大家感受一下TIETL的开发思路和强大的数据处理能力。功能需求：同一数据库(localhost_etl)下,现有cdc_source和cdc_target两张表如下: 表cdc_source 表cdc_target 现表cdc_source的增量(增、删
1.3K20编辑于 2022-08-14
来自专栏全栈程序员必看
c语言开发ETL,【ETL开发工作内容|工作职责|ETL开发做什么】-看准网「建议收藏」
工具应用 ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle、久其ETL…… 开源的工具有eclipse的etl插件:cloveretl 数据集成：快速实现ETL ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。注意事项为了能更好地实现ETL，笔者建议用户在实施ETL过程中应注意以下几点：第一，如果条件允许，可利用数据中转区对运营数据进行预处理，保证集成与加载的高效性；第二，如果ETL的过程是主动“拉取” ，这样才能快速实现ETL。体系结构下图为ETL体系结构，它体现了主流ETL产品框架的主要组成部分。ETL是指从源系统中提取数据，转换数据为一个标准的格式，并加载数据到目标数据存储区，通常是数据仓库。
1.2K10编辑于 2022-09-05
来自专栏IT技术订阅
ETL主要组成部分及常见的ETL工具介绍
以下是ETL技术栈的主要组成部分和相关技术介绍： 1. 辅助技术与工具 - 元数据管理：跟踪数据的来源、转换过程、数据质量等元信息，对ETL流程进行文档化和管理。 - 调度与工作流管理：如Airflow、Oozie用于自动化定时执行ETL任务，管理任务依赖和错误处理。 - 监控与日志：实现ETL作业的性能监控、错误报警和审计追踪，确保流程的稳定性和可追溯性。 ETL常用工具 ETL（Extract, Transform, Load）常用工具主要包括以下几种： 1. 随着大数据和云计算的发展，现代ETL技术栈还融入了更多云端原生服务、机器学习模型用于高级数据处理、以及反向ETL（将数据从数据仓库推送回业务系统）等新兴概念，进一步丰富和完善了数据集成的范畴。
3.1K10编辑于 2024-05-22
来自专栏全栈程序员必看
大数据ETL详解
ETL是BI项目最重要的一个环节，通常情况下ETL会花掉整个项目的1/3的时间，ETL设计的好坏直接关接到BI项目的成败。 ETL也是一个长期的过程，只有不断的发现问题并解决问题，才能使ETL运行效率更高，为项目后期开发提供准确的数据。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。 SQL方式实现，第三种是ETL工具和SQL相结合。 ETL日志与警告发送　　1、ETL日志，记录日志的目的是随时可以知道ETL运行情况，如果出错了，出错在那里。　　ETL日志分为三类。第三类日志是总体日志，只记录ETL开始时间，结束时间是否成功信息。　　如果使用ETL工具，工具会自动产生一些日志，这一类日志也可以作为ETL日志的一部分。　　
2.3K20编辑于 2022-07-08
来自专栏Hadoop数据仓库
Kettle构建Hadoop ETL实践（四）：建立ETL示例模型
TDS库表四、装载日期维度数据五、小节 ---- 从本篇开始，介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例，说明多维模型及其相关ETL技术在Kettle上的具体实现。 ETL处理时间周期为每天一次，事实表中存储最细粒度的订单事务记录。（3）确认维度。显然产品和客户是销售订单的维度。二、HIVE相关配置在“数据仓库架构中的ETL”曾经提到Hive可以用于原始数据和转换后的数据仓库数据存储。使用Hive作为多维数据仓库的主要挑战是处理渐变维（SCD）和生成代理键。至此，我们的示例数据仓库模型搭建完成，后面在其上将实现ETL。五、小节我们使用一个简单而典型的销售订单示例，建立数据仓库模型。
2.5K11发布于 2020-09-08
来自专栏流川疯编写程序的艺术
大数据ETL实践探索（3）---- 大数据ETL利器之pyspark
---- 大数据ETL 系列文章简介本系列文章主要针对ETL大数据处理这一典型场景，基于python语言使用Oracle、aws、Elastic search 、Spark 相关组件进行一些基本的数据导入导出实战本地文件上传至aws es spark dataframe录入ElasticSearch 等典型数据ETL功能的探索。系列文章： 1.大数据ETL实践探索（1）---- python 与oracle数据库导入导出 2.大数据ETL实践探索（2）---- python 与aws 交互 3.大数据ETL实践探索（3） ---- pyspark 之大数据ETL利器 4.大数据ETL实践探索（4）---- 之搜索神器elastic search 5.使用python对数据库，云平台，oracle，aws，es导入导出实战 6.aws ec2 配置ftp----使用vsftp 7.浅谈pandas，pyspark 的大数据ETL实践经验 ---- pyspark Dataframe ETL 本部分内容主要在系列文章
4.6K20发布于 2019-01-17
ETL是什么？一文讲清ETL和ELT的区别
在数据集成领域，ETL与ELT是两种应用最广泛的方式。ETL曾经是传统企业的主流选择，但是随着数据量的爆炸式增长以及业务需求的快速变化，ELT模式逐渐兴起。那么在今天的数据时代，我们到底应该怎么选？今天就带大家详细拆解ETL与ELT的区别，并结合企业自身业务场景与需求，帮大家选出最适配的数据处理方案。一、ETL是什么ETL是最早出现的，也是很多传统企业至今还在使用的数据处理方式。 7、错误处理ETL的转换和加载步骤串联，若转换阶段出现编码错误、规则错误，会直接导致整个ETL作业停止，影响数据加载。三、企业该如何选择ETL还是ELT？1. 看数据量和数据复杂性若企业数据量较小（每日≤100万条）、数据类型单一、计算逻辑复杂，优先选择ETL。 5、混合模式的应用目前很多大型企业并非单纯选择ETL或ELT，而是采用“ETL+ELT”混合模式，兼顾数据质量和处理效率。
47010编辑于 2026-03-25
来自专栏Hadoop数据仓库
Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业
为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。绝大多数Hadoop系统都运行在Linux之上，因此本片详细讨论两种Linux上定时自动执行ETL作业的方案。为了演示Kettle对数据仓库的支持能力，我们的示例将使用Start作业项实现ETL执行自动化。 0 2 * * * /root/regular_etl.sh 这就可以了，需要用户做的就是如此简单，其它的事情交给cron系统服务去完成。图7-2 定期装载DAG 上面的XML文件使用hPDL的语法定义了一个名为regular_etl的工作流。
7.9K54发布于 2020-10-26
来自专栏美图数据技术团队
美图离线ETL实践
ETL 有两种形式：实时流 ETL 和离线 ETL。美图目前仅使用实时流 ETL 进行数据注入和清洗的工作。 ? 图 2 根据 Lambda 结构，如果实时流 ETL 出现故障需要离线 ETL 进行修补。离线 ETL 是从 Kafka拉取消息，经过 ETL 再从 HDFS 落地。为了提高实时性及减轻数据压力，离线 ETL 是每小时 05 分调度，清洗上一个小时的数据。离线 ETL 工作流程 ? 图 4 如图 4 所示是离线 ETL 的基本工作流程： 1.kafka-etl 将业务数据清洗过程中的公共配置信息抽象成一个 etl schema ，代表各个业务不同的数据； 2.在 kafka-etl
1.6K00发布于 2018-09-18

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

ETL是什么_ETL平台

ETL

flink etl

谈谈ETL

部署及使用 etl crontab 和 etl engine

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

【ETL工程】大数据技术核心之ETL

谈谈ETL

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

ETL CSV to Elasticsearch

hive etl 通过 ETL engine 读取 Hive 中的数据

java etl 简单实例_东方通ETL开发实例

c语言开发ETL,【ETL开发工作内容|工作职责|ETL开发做什么】-看准网「建议收藏」

ETL主要组成部分及常见的ETL工具介绍

大数据ETL详解

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

大数据ETL实践探索（3）---- 大数据ETL利器之pyspark

ETL是什么？一文讲清ETL和ELT的区别

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

美图离线ETL实践

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ETL是什么_ETL平台

ETL

flink etl

谈谈ETL

部署 及 使用 etl crontab 和 etl engine

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

【ETL工程】大数据技术核心之ETL

谈谈ETL

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

ETL CSV to Elasticsearch

hive etl 通过 ETL engine 读取 Hive 中的数据

java etl 简单实例_东方通ETL开发实例

c语言开发ETL,【ETL开发工作内容|工作职责|ETL开发做什么】-看准网「建议收藏」

ETL主要组成部分及常见的ETL工具介绍

大数据ETL详解

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

大数据ETL实践探索（3）---- 大数据ETL利器之pyspark

ETL是什么？一文讲清ETL和ELT的区别

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

美图离线ETL实践

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

部署及使用 etl crontab 和 etl engine