文章/答案/技术大牛

发布

社区首页 >问答首页 >数据争论和ETL (提取、转换和加载)之间的区别是什么？

问数据争论和ETL (提取、转换和加载)之间的区别是什么？
EN

Stack Overflow用户

提问于 2019-11-08 10:23:12

回答 1查看 408关注 0票数 0

我对ETL的基本理解是，像数据分析师这样的人会使用它。ETL将用于从数据库(MySQL)中提取数据，转换为应用业务规则(Excel函数)的Excel，然后加载到另一个应用程序的新数据库中。当谈到这与数据争论有什么不同时，我感到非常困惑。据我所知，只有几个不同之处。1、使用技术的人不同。数据争论可能是数据工程师与ETL和数据分析师的工作。2、使用的技术不同。数据争论将使用Apache Spark或Hadoop生态系统之类的东西。ETL将使用Excel、Access或云数据库等工具来提取数据。从本质上讲，我的理解是，数据争论是对原始数据进行"ETL-ing“，这意味着数据还没有建模--(它不在模式中)。(也许在争论时，你必须解析数据，比如转发、点赞、收藏或其他东西)？只是好奇我是不是在赛道上。我试着读了一些文章，但对我来说还是没什么意义。谁能提供一个简单的解释，这样我就可以理解这个概念了？谢谢。

etl

data-science

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-08 11:20:50

数据角力是转换/清理从源流向目标的数据的过程。有多种方法可以完成这种转换或清理：

“小”数据集

对于可以在excel中打开的小型数据集，可以通过宏等的帮助在excel中定义清理规则的转换。如果您想重复执行此操作，可以构建bat ( windows )或shell (linux)脚本，并通过cron或windows调度程序对其进行调度。

一个简单的例子是用大小为10MB的文件中的某个值替换NULL

“中”数据集

如果数据集的大小无法在excel中打开，则可以使用脚本或编程语言执行相同的操作，并使用上述示例中提到的计划程序对其进行计划。这样的脚本语言通常在一台机器上运行，性能与机器的配置成正比

一个简单的例子是用一个大小为10 GB的文件中的某个值替换NULL

“大型”数据集

当数据集很大时，不可能在excel中打开，并且在一台计算机上运行清理规则可能会很慢。这就是Big Data技术(如Map reduce、Spark等)的亮点，它将数据子集发送到多台机器，并在每台机器上对该数据子集应用清理规则，从而提高整个处理的吞吐量。

一个简单的例子是用一个大小为500 GB的文件中的某个值替换NULL

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58759525

复制

相似问题

问数据争论和ETL (提取、转换和加载)之间的区别是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据争论和ETL (提取、转换和加载)之间的区别是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据争论和ETL (提取、转换和加载)之间的区别是什么？
EN