文章/答案/技术大牛

发布

社区首页 >问答首页 >使用ggplot2(盒图)的高效方法&一个“反应性”子集函数

问使用ggplot2(盒图)的高效方法&一个“反应性”子集函数
EN

Stack Overflow用户

提问于 2013-11-16 20:39:51

回答 1查看 996关注 0票数 2

我有一个>1000 K行和5列的数据集。(材料和价格是相关栏)

我写了一个“反应性”闪亮的应用程序，它使用ggplot2创建了各种材料价格的盒子图。例如，用户从列表中选择4-5种材料，然后闪亮创建每种材料价格的方格图：

价差:棉制，纸制，木材制

它还创建了一个材料组合数据图，对所有材料的价格价差进行组合。

例如:棉花、纸张和木材制成的价格蔓延的例子

对于样本数据集(大约5000行)，它的工作速度相对较快，但我担心如何有效地缩放它。

数据集是静态的，因此我查看以下解决方案：

计算各种材料的四分位数范围(数据<-汇总(数据))，然后使用googleViz创建蜡烛棒，但是，当我试图计算材料组合图时遇到了问题，因为有100多个材料，所以离线计算所有可能的组合是不可行的。
计算各种材料(数据<-汇总(数据))的四分位数范围，然后创建一个矩阵来存储每个材料的汇总数据的行号(最小、中、最大、第一和第三四分位数)。然后，我可以使用一些粗略的计算来建立材料组合图的汇总()数据，然后再用GoogleVIZ绘图，但是我很少有经验使用这种类型的计算。

有人能建议使用最健壮和最可伸缩的方法来计算&使用闪亮的the绘图反应子集吗？

我理解这是一个与方法有关的问题，而不是代码，但我对R的能力还很陌生，而且还在消化不同的类功能，我不想“错过一个窍门”。

一如既往的感谢！

请参阅下面审查的方法。

四分位数聚类:一种基于四分位数的生成有意义集群http://arxiv.org/ftp/arxiv/papers/1203/1203.4157.pdf的技术

Conditionally subsetting and calculating a new variable in dataframe in shiny

shiny

ggplot2

google-visualization

plyr

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-11-16 21:10:11

如果您确实拥有超过1000 K的数据集，即100万。它可能位于平面文件或数据库中。您总是可以做一些预计算，并将结果存储在数据库表中，并使用闪亮的应用程序调用该表，而不是每次人们打开您闪亮的应用程序时都将所有内容加载到R中。

我已经构建了几个内部应用程序，我学到的教训是:在构建应用程序之前，您需要仔细考虑，如何将R的计算最小化，同时将信息传递给应用程序用户。我们的一些数据是10billion+，使用Hive查询需要超过1小时。然后，我最终预先计算了结果，并将其放在crontab上，以便在每到午夜更新结果表。

我更喜欢，也许是你的method2？或者将预计算存储在mysql数据库中。(如果以后需要实时功能，Python脚本可能每天更新一次表)。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/20023606

复制

相似问题

问使用ggplot2(盒图)的高效方法&一个“反应性”子集函数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用ggplot2(盒图)的高效方法&一个“反应性”子集函数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用ggplot2(盒图)的高效方法&一个“反应性”子集函数
EN