我正在寻找一个最好的方法来分析存储在Vertica中的4B记录(1TB数据)使用Tableau。我试着从1M条记录中提取出来,效果很好。但不知道如何管理4B记录,因为查询4B记录花费的时间太长。
我有以下数据集:
timestamp id url domain keyword nor_word cat_1 cat_2 cat_3所以在这里我需要创建排名前10的ID的降序列表,排名前10的cat_2,排名前10的域名,排名前10的关键字,排名前10的nor_word,排名前10的cat_1,排名前10的url,排名前10的cat_2,排名前10的cat_3取决于在单独的工作表中的每个字段值的计数,并将所有工作表合并在一个仪表板中。
没有主键。这个数据集是1个月的,所以我想让全局过滤器的开始日期和结束日期减少查询的大小。但不知道如何创建全局日期过滤器并在仪表板上显示?
发布于 2014-07-16 05:24:29
您有两个问题,一个是关于Vertica的,一个是关于Tableau的。你应该把它们分开。
关于Vertica,您需要知道Vertica在物理存储中以升序存储数据。这意味着,每当您想要获得降序排序时,总是需要一个额外的步骤。
我建议在日期上使用creating a partition,然后以增量模式运行数据库设计器(DBD),并使用您的查询作为示例。通过对数据进行分区,Vertica可以在优化过程中消除分区。
运行DBD将生成一些更好的优化预测。您应该在需要此数据的频率和是否值得创建这些额外的预测之间进行权衡,因为这将影响您的负载性能。
https://stackoverflow.com/questions/24768014
复制相似问题