向U-SQL表插入数据花费的时间太长。我们使用分区表来重新计算以前处理过的数据。在具有11、5和1个分区的三个表上,第一次插入几乎需要10-12分钟,并行度设置为10。第二次插入相同的数据几乎需要4个小时。目前我们使用的是基于年份的分区。我们在没有添加分区的情况下测试了插入和查询,性能要好得多。这是分区表的问题吗?
发布于 2016-06-17 07:55:33
非常奇怪的是,相同的作业会花费如此多的时间来执行相同的数据和脚本,并以相同的并行度执行。如果您从VisualStudio中查看作业图(或顶点执行信息),您能看到时间都花在哪里了吗?
请注意,(粗粒度的)分区更像是一种数据生命周期管理特性,它允许您寻址表的各个分区,而不一定是一种性能特性(尽管消除分区有助于提高查询性能)。但不应该使用相同的脚本、资源和数据从几分钟到几个小时。
https://stackoverflow.com/questions/37854299
复制相似问题