我想更好地理解一个好的数据工程师必须知道什么或者他做什么。职务说明主要列出所需的工具,如Python。如果有可能将数据工程与数据科学分开,那么数据工程所依据的原则是什么,数据工程的结果是什么?它是否创建了一些数据结构?如果是的话,这些结构可能是什么?是否有标准或最佳做法?
发布于 2020-07-10 16:07:06
首先,我只想说,我不是一个数据工程师,而且肯定有一个人能比我更好地回答这个问题。
我确实认为数据工程背后有很多理论。这也很有趣。我也认为这很无聊,我更感兴趣的是数据科学/机器学习。我不知道我能否确切地说出数据工程所依据的原则是什么,但它是关于如何最好地存储数据、访问数据和创建底层系统以提高计算效率。我读到的第一篇论文真正让我对这件事感兴趣的是星火原纸。
我还为数据工程PhD和偶然发现这个做了一个快速的google。关于如何使用“纳米结构”存储数据,有许多有趣的新研究正在进行。在量子数据库中也有一个研究领域,这似乎是一个非常有趣的数据库抽象。
我会有兴趣听到一个更知情和完整的答案,从其他人谁在这一领域!实际上,在另一个堆栈交换站点上发布这个问题可能是有用的。
发布于 2020-07-11 01:53:20
在ETL和数据仓库背后当然有理论,或者至少是相互竞争的方法,首先来看Inmon vs Kimball方法。
简而言之(我可以在这个主题上谈上几天),Bruce Inmon(数据仓库之父)的方法围绕着从多个来源构建一个大的、松散的第三个规范化数据仓库,即以业务域为中心的报告星型模式可以根据需要快速构建和处理,而Kimball则专注于(通过一些阶段步骤)直接构建到报告结构中。
根据我的经验,虽然Inmon哲学看起来更明智,但基于Inmon的项目,至少是我参与过的项目,往往比基于Kimball的项目失败得多,这主要是因为在看到任何业务价值之前,构建大型数据仓库所需的时间和精力。
它还有很多地方,我可能已经让我自己的经验和观点玷污了方法学的纯洁性(你可以在谷歌上进行更广泛的讨论),但我提到它很大程度上是为了说明,即使是在移动和合并数据的简单(hah)过程中,也发生了许多宗教战争:)也要意识到,我的大部分实际数据仓库经验大约在十年前,所以这个领域可能已经前进了。
https://datascience.stackexchange.com/questions/77451
复制相似问题