首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据争论和ETL (提取、转换和加载)之间的区别是什么?

数据争论和ETL (提取、转换和加载)之间的区别是什么?
EN

Stack Overflow用户
提问于 2019-11-08 10:23:12
回答 1查看 408关注 0票数 0

我对ETL的基本理解是,像数据分析师这样的人会使用它。ETL将用于从数据库(MySQL)中提取数据,转换为应用业务规则(Excel函数)的Excel,然后加载到另一个应用程序的新数据库中。当谈到这与数据争论有什么不同时,我感到非常困惑。据我所知,只有几个不同之处。1、使用技术的人不同。数据争论可能是数据工程师与ETL和数据分析师的工作。2、使用的技术不同。数据争论将使用Apache Spark或Hadoop生态系统之类的东西。ETL将使用Excel、Access或云数据库等工具来提取数据。从本质上讲,我的理解是,数据争论是对原始数据进行"ETL-ing“,这意味着数据还没有建模--(它不在模式中)。(也许在争论时,你必须解析数据,比如转发、点赞、收藏或其他东西)?只是好奇我是不是在赛道上。我试着读了一些文章,但对我来说还是没什么意义。谁能提供一个简单的解释,这样我就可以理解这个概念了?谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-08 11:20:50

数据角力是转换/清理从源流向目标的数据的过程。有多种方法可以完成这种转换或清理:

“小”数据集

对于可以在excel中打开的小型数据集,可以通过宏等的帮助在excel中定义清理规则的转换。如果您想重复执行此操作,可以构建bat ( windows )或shell (linux)脚本,并通过cron或windows调度程序对其进行调度。

一个简单的例子是用大小为10MB的文件中的某个值替换NULL

“中”数据集

如果数据集的大小无法在excel中打开,则可以使用脚本或编程语言执行相同的操作,并使用上述示例中提到的计划程序对其进行计划。这样的脚本语言通常在一台机器上运行,性能与机器的配置成正比

一个简单的例子是用一个大小为10 GB的文件中的某个值替换NULL

“大型”数据集

当数据集很大时,不可能在excel中打开,并且在一台计算机上运行清理规则可能会很慢。这就是Big Data技术(如Map reduce、Spark等)的亮点,它将数据子集发送到多台机器,并在每台机器上对该数据子集应用清理规则,从而提高整个处理的吞吐量。

一个简单的例子是用一个大小为500 GB的文件中的某个值替换NULL

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58759525

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档