我使用下面的查询作为一些非结构化数据(没有索引、没有集群等)的基线,并且与我向联接列添加索引或将表添加到集群或散列时相比,该查询在非结构数据上的性能更好。我觉得我的基线查询并不理想,我的任务是获取一个基线查询,并找到一个性能最好的结构,但是我尝试过的所有结构都比非结构化结构执行得更糟糕。我能对基线查询做些什么,至少能找到一个比非结构化结构有明显改进的结构吗?
查询:
SELECT Cust_name, price
FROM Customer, Sales
WHERE price > 1000
AND num_sold > 10
AND Sales.Cust_id = Customer.Cust_id;此查询将返回150 K中的108k+行。
下面是测试的痕迹:
非结构化的:

在联接列Sales.Cust_id和Customer.Cust_id上添加索引:

将这两个表添加到集群中,其中群集索引为Cust_id:

将这两个表添加到具有10000键的散列集群中:

发布于 2015-09-29 04:35:55
您选择72%的数据。我不认为任何结构会对这种情况有很大帮助。非结构化的似乎是最好的。
发布于 2015-09-29 07:42:34
我唯一能想到的改善这种情况的方法是:
https://stackoverflow.com/questions/32835567
复制相似问题