首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ETL和数据工程-它是纯粹的工具知识,还是有理论支持?

ETL和数据工程-它是纯粹的工具知识,还是有理论支持?
EN

Data Science用户
提问于 2020-07-09 19:44:35
回答 2查看 316关注 0票数 5

我想更好地理解一个好的数据工程师必须知道什么或者他做什么。职务说明主要列出所需的工具,如Python。如果有可能将数据工程与数据科学分开,那么数据工程所依据的原则是什么,数据工程的结果是什么?它是否创建了一些数据结构?如果是的话,这些结构可能是什么?是否有标准或最佳做法?

EN

回答 2

Data Science用户

发布于 2020-07-10 16:07:06

首先,我只想说,我不是一个数据工程师,而且肯定有一个人能比我更好地回答这个问题。

我确实认为数据工程背后有很多理论。这也很有趣。我也认为这很无聊,我更感兴趣的是数据科学/机器学习。我不知道我能否确切地说出数据工程所依据的原则是什么,但它是关于如何最好地存储数据、访问数据和创建底层系统以提高计算效率。我读到的第一篇论文真正让我对这件事感兴趣的是星火原纸

我还为数据工程PhD和偶然发现这个做了一个快速的google。关于如何使用“纳米结构”存储数据,有许多有趣的新研究正在进行。在量子数据库中也有一个研究领域,这似乎是一个非常有趣的数据库抽象。

我会有兴趣听到一个更知情和完整的答案,从其他人谁在这一领域!实际上,在另一个堆栈交换站点上发布这个问题可能是有用的。

票数 2
EN

Data Science用户

发布于 2020-07-11 01:53:20

在ETL和数据仓库背后当然有理论,或者至少是相互竞争的方法,首先来看Inmon vs Kimball方法。

简而言之(我可以在这个主题上谈上几天),Bruce Inmon(数据仓库之父)的方法围绕着从多个来源构建一个大的、松散的第三个规范化数据仓库,即以业务域为中心的报告星型模式可以根据需要快速构建和处理,而Kimball则专注于(通过一些阶段步骤)直接构建到报告结构中。

根据我的经验,虽然Inmon哲学看起来更明智,但基于Inmon的项目,至少是我参与过的项目,往往比基于Kimball的项目失败得多,这主要是因为在看到任何业务价值之前,构建大型数据仓库所需的时间和精力。

它还有很多地方,我可能已经让我自己的经验和观点玷污了方法学的纯洁性(你可以在谷歌上进行更广泛的讨论),但我提到它很大程度上是为了说明,即使是在移动和合并数据的简单(hah)过程中,也发生了许多宗教战争:)也要意识到,我的大部分实际数据仓库经验大约在十年前,所以这个领域可能已经前进了。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77451

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档