理想情况下,我希望设置一个管道,它将导出大量数据(1TB)从ADX到ADLS Gen2在每小时的间隔。我认为ADF copy活动不适合ADX的本机导出功能,所以我尝试了按需导出功能(.export命令)。ADX集群和目标ADLS账号在同一地域。但由于绝对的数据量/大小,导出总是超时(由ADX设置的1小时上限)。我已经尝试了一些选项,但到目前为止,我尝试的组合都没有返回令人满意的结果。我使用默认分布(我相信是按分片)进行导出,但考虑到数据量,我认为我需要充分扩展节点数量。这应该会有帮助吗?是否有任何现成的解决方案可以将这种规模的数据导出到ADX之外--也许是某种后端方法?
发布于 2021-06-04 00:05:09
没错,单个导出命令被限制为1小时,并且您不能增加此限制。建议将数据拆分为多个导出命令,以便每个命令都导出数据的一个子集(您可以按ingestion_time()进行分区)。如果同时运行多个这样的导出,可能会达到存储限制(取决于每个查询将覆盖的分片数量),因此建议使用多个存储帐户。当您为一个导出命令提供多个帐户时,ADX将在它们之间分配负载。
https://stackoverflow.com/questions/67824629
复制相似问题