我有一个>1000 K行和5列的数据集。(材料和价格是相关栏)
我写了一个“反应性”闪亮的应用程序,它使用ggplot2创建了各种材料价格的盒子图。例如,用户从列表中选择4-5种材料,然后闪亮创建每种材料价格的方格图:
价差:棉制,纸制,木材制
它还创建了一个材料组合数据图,对所有材料的价格价差进行组合。
例如:棉花、纸张和木材制成的价格蔓延的例子
对于样本数据集(大约5000行),它的工作速度相对较快,但我担心如何有效地缩放它。
数据集是静态的,因此我查看以下解决方案:
有人能建议使用最健壮和最可伸缩的方法来计算&使用闪亮的the绘图反应子集吗?
我理解这是一个与方法有关的问题,而不是代码,但我对R的能力还很陌生,而且还在消化不同的类功能,我不想“错过一个窍门”。
一如既往的感谢!
请参阅下面审查的方法。
四分位数聚类:一种基于四分位数的生成有意义集群http://arxiv.org/ftp/arxiv/papers/1203/1203.4157.pdf的技术
Conditionally subsetting and calculating a new variable in dataframe in shiny
发布于 2013-11-16 21:10:11
如果您确实拥有超过1000 K的数据集,即100万。它可能位于平面文件或数据库中。您总是可以做一些预计算,并将结果存储在数据库表中,并使用闪亮的应用程序调用该表,而不是每次人们打开您闪亮的应用程序时都将所有内容加载到R中。
我已经构建了几个内部应用程序,我学到的教训是:在构建应用程序之前,您需要仔细考虑,如何将R的计算最小化,同时将信息传递给应用程序用户。我们的一些数据是10billion+,使用Hive查询需要超过1小时。然后,我最终预先计算了结果,并将其放在crontab上,以便在每到午夜更新结果表。
我更喜欢,也许是你的method2?或者将预计算存储在mysql数据库中。(如果以后需要实时功能,Python脚本可能每天更新一次表)。
https://stackoverflow.com/questions/20023606
复制相似问题