首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >非分区流分析作业输出

非分区流分析作业输出
EN

Stack Overflow用户
提问于 2021-10-20 15:32:20
回答 2查看 92关注 0票数 1

在Azure中,我有一个带有分区计数5的事件集线器和一个作业,它像json格式一样将数据从中心存储到blob存储。因此,现在有5个文件创建来存储传入的数据。

如果不更改集线器分区以配置流分析作业,以便将所有数据保存到单个文件中,是否有可能?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-10-25 21:46:49

在对这个答案建议的分区进行了实验之后,我发现可以通过更改Stream作业配置来实现我的目标。

流分析工作有不同的兼容性水平,目前最新的具有多个分区的输入源并行查询执行 (1.2)引入了自动具有多个分区的输入源并行查询执行

以前的级别:查询需要使用partitions子句来对跨输入源分区的查询处理并行化。1.2级别:如果查询逻辑可以在输入源分区之间并行化,Analytics将创建单独的查询实例并并行运行计算。

因此,当我将作业的兼容性级别更改为1.1时,它开始将所有输出写入blob存储中的单个文件。

票数 0
EN

Stack Overflow用户

发布于 2021-10-20 16:52:57

为了便于参考,本文描述了如何拆分输出文件时所考虑的问题。

就您的情况而言,满足的条件是:

如果查询被完全分区,并且为每个输出分区创建了一个新文件

这就是这里的诀窍,如果您的查询是从事件中心(分区)传递到存储帐户(通过拆分文件匹配传入分区),那么您的作业始终是完全分区的。

如果您不关心性能,那么您可以做的是破坏分区对齐。为此,您可以重新划分你的投入或查询(通过快照聚合)。

不过,在我看来,您应该考虑使用另一个工具(ADF,)来处理下游的这些数据。您应该看到这些文件是登陆文件,为查询吞吐量进行了优化。如果从工作中删除分区对齐,则严重限制其扩展和吸收传入流量中的尖峰的能力。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69648952

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档