文章/答案/技术大牛

发布

社区首页 >问答首页 >ETL和数据工程-它是纯粹的工具知识，还是有理论支持？

问ETL和数据工程-它是纯粹的工具知识，还是有理论支持？
EN

Data Science用户

提问于 2020-07-09 19:44:35

回答 2查看 316关注 0票数 5

我想更好地理解一个好的数据工程师必须知道什么或者他做什么。职务说明主要列出所需的工具，如Python。如果有可能将数据工程与数据科学分开，那么数据工程所依据的原则是什么，数据工程的结果是什么？它是否创建了一些数据结构？如果是的话，这些结构可能是什么？是否有标准或最佳做法？

etl

data-analysis

databases

data-engineering

回答 2

Data Science用户

发布于 2020-07-10 16:07:06

首先，我只想说，我不是一个数据工程师，而且肯定有一个人能比我更好地回答这个问题。

我确实认为数据工程背后有很多理论。这也很有趣。我也认为这很无聊，我更感兴趣的是数据科学/机器学习。我不知道我能否确切地说出数据工程所依据的原则是什么，但它是关于如何最好地存储数据、访问数据和创建底层系统以提高计算效率。我读到的第一篇论文真正让我对这件事感兴趣的是星火原纸。

我还为数据工程PhD和偶然发现这个做了一个快速的google。关于如何使用“纳米结构”存储数据，有许多有趣的新研究正在进行。在量子数据库中也有一个研究领域，这似乎是一个非常有趣的数据库抽象。

我会有兴趣听到一个更知情和完整的答案，从其他人谁在这一领域！实际上，在另一个堆栈交换站点上发布这个问题可能是有用的。

票数 2

Data Science用户

发布于 2020-07-11 01:53:20

在ETL和数据仓库背后当然有理论，或者至少是相互竞争的方法，首先来看Inmon vs Kimball方法。

简而言之(我可以在这个主题上谈上几天)，Bruce Inmon(数据仓库之父)的方法围绕着从多个来源构建一个大的、松散的第三个规范化数据仓库，即以业务域为中心的报告星型模式可以根据需要快速构建和处理，而Kimball则专注于(通过一些阶段步骤)直接构建到报告结构中。

根据我的经验，虽然Inmon哲学看起来更明智，但基于Inmon的项目，至少是我参与过的项目，往往比基于Kimball的项目失败得多，这主要是因为在看到任何业务价值之前，构建大型数据仓库所需的时间和精力。

它还有很多地方，我可能已经让我自己的经验和观点玷污了方法学的纯洁性(你可以在谷歌上进行更广泛的讨论)，但我提到它很大程度上是为了说明，即使是在移动和合并数据的简单(hah)过程中，也发生了许多宗教战争:)也要意识到，我的大部分实际数据仓库经验大约在十年前，所以这个领域可能已经前进了。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/77451

复制

相似问题

问ETL和数据工程-它是纯粹的工具知识，还是有理论支持？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ETL和数据工程-它是纯粹的工具知识，还是有理论支持？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ETL和数据工程-它是纯粹的工具知识，还是有理论支持？
EN