首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么算ETL?

什么算ETL?
EN

Stack Overflow用户
提问于 2018-04-23 08:22:42
回答 3查看 351关注 0票数 2

我知道ETL代表提取、转换和将数据加载到一个新的目标数据库中。但它在什么范围内仍然可以算作ETL?例如,如果我想将一个有7000条记录的联系人数据库移动到CRM软件中,这个过程也算ETL吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2018-04-23 08:25:59

ETL代表数据的提取、转换、加载阶段。从数据源中提取数据,将提取的数据转换为目标数据源。

每当您在一个位置解压缩,在另一个地方加载时,您的流程仍然会进入ETL。ETL可能不会涉及到所有场景中的转换,在这些场景中,ETL直接加载数据。大多数情况下,将转换到数据以适应目标环境/模式。

回答你的问题,是的。您装载的记录属于ETL的权限范围。但是,在你的例子中,它没有转变的阶段。

票数 2
EN

Stack Overflow用户

发布于 2019-01-29 22:08:59

正如Venkataraman所说,你没有一个转换阶段,这就是为什么你的工作不能真正被认为是ETL的原因。

通常,转换部分将包括某种数据映射 (EG )。规范国家代码或提取国家代码美国-> US;TUR -> TR)。除了大量的查找验证和映射之外,您还会做一些一般性的清理,比如删除坏数据的、适当的格式(如标题帽)、在数据仓库情况下对键进行重新处理)。在准备机器学习训练的情况下,您还可以做normalization、计算、、binning等操作。但是我认为最重要的是删除重复的,因为它可能导致有关聚合的问题。

如果从现有数据派生出一组新的数据到聚合表单,也会考虑转换。这意味着您已经以某种方式将数据分组(SUM/AVG/MAX),以便当工具使用数据时,它将不再需要执行聚合本身,以最小化计算和带宽需求。

票数 0
EN

Stack Overflow用户

发布于 2021-10-06 21:16:39

我认为有趣的是,自从提出这个问题以来,出现了一组全新的工具,它们自称"反向ETL“,它们按照您所说的方向同步数据:从数据库/仓库到客户关系管理系统。例如,离开Postgres,进入Salesforce或Marketo。

“相反”的部分似乎是承认这正朝着相反的方向发展,而ETL通常在历史上是这样的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49976450

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档