文章/答案/技术大牛

发布

问数据湖Blob存储
EN

Stack Overflow用户

提问于 2020-07-03 05:08:46

回答 1查看 66关注 0票数 0

我在追求一点理解，我没有被任何东西卡住，但我正在努力理解一些更好的东西。

在加载数据仓库时，为什么总是建议先将数据加载到blob存储或数据湖中？我知道从那里提取数据非常快，但在我的经验中有几个陷阱。第一个问题是有一个文件大小限制，如果你加载太多的数据到一个文件中，正如我所看到的那样，它会导致加载错误，这时我们必须将加载切换为增量加载。这就引出了我的第二个问题，我一直认为加载到blob存储中的重点是将所有数据都丢弃在其中，以便您可以在未来访问它，而不会给前端系统带来压力，如果我因为文件限制而无法做到这一点，那么即使使用blob存储，我们也可以将数据直接加载到临时表中。在我看来，这似乎是一个不必要的步骤，因为我过去在运行数据仓库时没有涉及到这一部分，而且对我来说，它们工作得更好。

无论如何，我对这一部分的理解并不像我希望的那样好，我试着找到了回答这些具体问题的文章，但没有一篇文章真正正确地向我解释了这个概念。任何我能读到的好文章的帮助或链接都将不胜感激。

azure-data-lake

azure

azure-blob-storage

data-warehouse

回答 1

Stack Overflow用户

发布于 2020-07-14 00:59:32

将数据放在blob或数据湖中的一个原因是，可以同时对数据使用多个并行读取器。这样做的目的是在合理的时间内读取数据。并非所有数据源都支持这种类型的读取操作。考虑到文件的大小，单个读取器将花费很长很长的时间。

SFTP就是这样的一个例子。并非所有SFTP服务器都支持偏移量读取。有些可能对并发连接有进一步的限制。首先将数据移动到Azure服务提供了一组已知的功能/限制。

在您的情况下，我认为您需要的是对文件进行分区，就像HDFS可能做的那样。如果我知道您使用的是什么数据源，我可能会有进一步的建议。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62705048

复制

相似问题

问数据湖Blob存储
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据湖Blob存储EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据湖Blob存储
EN