文章/答案/技术大牛

发布

社区首页 >问答首页 >非分区流分析作业输出

问非分区流分析作业输出
EN

Stack Overflow用户

提问于 2021-10-20 15:32:20

回答 2查看 92关注 0票数 1

在Azure中，我有一个带有分区计数5的事件集线器和一个作业，它像json格式一样将数据从中心存储到blob存储。因此，现在有5个文件创建来存储传入的数据。

如果不更改集线器分区以配置流分析作业，以便将所有数据保存到单个文件中，是否有可能？

azure

azure-blob-storage

azure-eventhub

azure-stream-analytics

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-10-25 21:46:49

在对这个答案建议的分区进行了实验之后，我发现可以通过更改Stream作业配置来实现我的目标。

流分析工作有不同的兼容性水平，目前最新的具有多个分区的输入源并行查询执行 (1.2)引入了自动具有多个分区的输入源并行查询执行

以前的级别:查询需要使用partitions子句来对跨输入源分区的查询处理并行化。1.2级别:如果查询逻辑可以在输入源分区之间并行化，Analytics将创建单独的查询实例并并行运行计算。

因此，当我将作业的兼容性级别更改为1.1时，它开始将所有输出写入blob存储中的单个文件。

票数 0

Stack Overflow用户

发布于 2021-10-20 16:52:57

为了便于参考，本文描述了如何拆分输出文件时所考虑的问题。

就您的情况而言，满足的条件是：

如果查询被完全分区，并且为每个输出分区创建了一个新文件

这就是这里的诀窍，如果您的查询是从事件中心(分区)传递到存储帐户(通过拆分文件匹配传入分区)，那么您的作业始终是完全分区的。

如果您不关心性能，那么您可以做的是破坏分区对齐。为此，您可以重新划分你的投入或查询(通过快照聚合)。

不过，在我看来，您应该考虑使用另一个工具(ADF，)来处理下游的这些数据。您应该看到这些文件是登陆文件，为查询吞吐量进行了优化。如果从工作中删除分区对齐，则严重限制其扩展和吸收传入流量中的尖峰的能力。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69648952

复制

相似问题

问非分区流分析作业输出
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问非分区流分析作业输出EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问非分区流分析作业输出
EN