首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用ggplot2(盒图)的高效方法&一个“反应性”子集函数

使用ggplot2(盒图)的高效方法&一个“反应性”子集函数
EN

Stack Overflow用户
提问于 2013-11-16 20:39:51
回答 1查看 996关注 0票数 2

我有一个>1000 K行和5列的数据集。(材料和价格是相关栏)

我写了一个“反应性”闪亮的应用程序,它使用ggplot2创建了各种材料价格的盒子图。例如,用户从列表中选择4-5种材料,然后闪亮创建每种材料价格的方格图:

价差:棉制,纸制,木材制

它还创建了一个材料组合数据图,对所有材料的价格价差进行组合。

例如:棉花、纸张和木材制成的价格蔓延的例子

对于样本数据集(大约5000行),它的工作速度相对较快,但我担心如何有效地缩放它。

数据集是静态的,因此我查看以下解决方案:

  1. 计算各种材料的四分位数范围(数据<-汇总(数据)),然后使用googleViz创建蜡烛棒, 但是,当我试图计算材料组合图时遇到了问题,因为有100多个材料,所以离线计算所有可能的组合是不可行的。
  2. 计算各种材料(数据<-汇总(数据))的四分位数范围,然后创建一个矩阵来存储每个材料的汇总数据的行号(最小、中、最大、第一和第三四分位数)。然后,我可以使用一些粗略的计算来建立材料组合图的汇总()数据,然后再用GoogleVIZ绘图,但是我很少有经验使用这种类型的计算。

有人能建议使用最健壮和最可伸缩的方法来计算&使用闪亮的the绘图反应子集吗?

我理解这是一个与方法有关的问题,而不是代码,但我对R的能力还很陌生,而且还在消化不同的类功能,我不想“错过一个窍门”。

一如既往的感谢!

请参阅下面审查的方法。

四分位数聚类:一种基于四分位数的生成有意义集群http://arxiv.org/ftp/arxiv/papers/1203/1203.4157.pdf的技术

Conditionally subsetting and calculating a new variable in dataframe in shiny

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-11-16 21:10:11

如果您确实拥有超过1000 K的数据集,即100万。它可能位于平面文件或数据库中。您总是可以做一些预计算,并将结果存储在数据库表中,并使用闪亮的应用程序调用该表,而不是每次人们打开您闪亮的应用程序时都将所有内容加载到R中。

我已经构建了几个内部应用程序,我学到的教训是:在构建应用程序之前,您需要仔细考虑,如何将R的计算最小化,同时将信息传递给应用程序用户。我们的一些数据是10billion+,使用Hive查询需要超过1小时。然后,我最终预先计算了结果,并将其放在crontab上,以便在每到午夜更新结果表。

我更喜欢,也许是你的method2?或者将预计算存储在mysql数据库中。(如果以后需要实时功能,Python脚本可能每天更新一次表)。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20023606

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档