首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据湖Blob存储

数据湖Blob存储
EN

Stack Overflow用户
提问于 2020-07-03 05:08:46
回答 1查看 66关注 0票数 0

我在追求一点理解,我没有被任何东西卡住,但我正在努力理解一些更好的东西。

在加载数据仓库时,为什么总是建议先将数据加载到blob存储或数据湖中?我知道从那里提取数据非常快,但在我的经验中有几个陷阱。第一个问题是有一个文件大小限制,如果你加载太多的数据到一个文件中,正如我所看到的那样,它会导致加载错误,这时我们必须将加载切换为增量加载。这就引出了我的第二个问题,我一直认为加载到blob存储中的重点是将所有数据都丢弃在其中,以便您可以在未来访问它,而不会给前端系统带来压力,如果我因为文件限制而无法做到这一点,那么即使使用blob存储,我们也可以将数据直接加载到临时表中。在我看来,这似乎是一个不必要的步骤,因为我过去在运行数据仓库时没有涉及到这一部分,而且对我来说,它们工作得更好。

无论如何,我对这一部分的理解并不像我希望的那样好,我试着找到了回答这些具体问题的文章,但没有一篇文章真正正确地向我解释了这个概念。任何我能读到的好文章的帮助或链接都将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2020-07-14 00:59:32

将数据放在blob或数据湖中的一个原因是,可以同时对数据使用多个并行读取器。这样做的目的是在合理的时间内读取数据。并非所有数据源都支持这种类型的读取操作。考虑到文件的大小,单个读取器将花费很长很长的时间。

SFTP就是这样的一个例子。并非所有SFTP服务器都支持偏移量读取。有些可能对并发连接有进一步的限制。首先将数据移动到Azure服务提供了一组已知的功能/限制。

在您的情况下,我认为您需要的是对文件进行分区,就像HDFS可能做的那样。如果我知道您使用的是什么数据源,我可能会有进一步的建议。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62705048

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档