我读过这篇文章:
https://docs.aws.amazon.com/redshift/latest/dg/c_analyzing-table-design.html
给出了一个分析表设计的查询。对于每个表,它给出了两个指标:
在这篇文章中,我读到一个小值对ratio_skew_across_slices是有益的。一定要有多小?我发现只有这篇文章给了我一个门槛:
https://dwgeek.com/redshift-table-data-skew-avoid.html/
<4是好的。我能接受这个门槛吗?我有一些值为2.0和2.15的表。
发布于 2020-11-09 02:23:39
通常,表倾斜没有可接受的或定义的值。但经验法则是要把它保持在4以下。
为了理解这一点,让我们看一个例子。
您有一个150行的表,集群有3个节点。
斜率是如何计算的?
节点上最大行与节点上最小行之间的比率。
100/2 = 50. So the skew here is 50.
但是它是一张很小的桌子,即使倾斜度很高,也没有影响,但是想想一个大桌子。
50000000
Skew is 1.67
在这里,倾斜是非常小的,但影响太大,扫描您的数据。
因此,这取决于您决定一个特定的表是这个倾斜的罚款还是需要优化。
https://stackoverflow.com/questions/64577520
复制相似问题