我知道ETL代表提取、转换和将数据加载到一个新的目标数据库中。但它在什么范围内仍然可以算作ETL?例如,如果我想将一个有7000条记录的联系人数据库移动到CRM软件中,这个过程也算ETL吗?
发布于 2018-04-23 08:25:59
ETL代表数据的提取、转换、加载阶段。从数据源中提取数据,将提取的数据转换为目标数据源。
每当您在一个位置解压缩,在另一个地方加载时,您的流程仍然会进入ETL。ETL可能不会涉及到所有场景中的转换,在这些场景中,ETL直接加载数据。大多数情况下,将转换到数据以适应目标环境/模式。
回答你的问题,是的。您装载的记录属于ETL的权限范围。但是,在你的例子中,它没有转变的阶段。
发布于 2019-01-29 22:08:59
正如Venkataraman所说,你没有一个转换阶段,这就是为什么你的工作不能真正被认为是ETL的原因。
通常,转换部分将包括某种数据映射 (EG )。规范国家代码或提取国家代码美国-> US;TUR -> TR)。除了大量的查找验证和映射之外,您还会做一些一般性的清理,比如删除坏数据的、适当的格式(如标题帽)、在数据仓库情况下对键进行重新处理)。在准备机器学习训练的情况下,您还可以做normalization、计算、、binning等操作。但是我认为最重要的是删除重复的,因为它可能导致有关聚合的问题。
如果从现有数据派生出一组新的数据到聚合表单,也会考虑转换。这意味着您已经以某种方式将数据分组(SUM/AVG/MAX),以便当工具使用数据时,它将不再需要执行聚合本身,以最小化计算和带宽需求。
https://stackoverflow.com/questions/49976450
复制相似问题