我收集了各种各样的金融时间序列。我的大多数分析要么是面向列的,要么是面向行的,很少需要进行任何复杂的查询。此外,我(到目前为止)几乎所有的分析都是在R中进行的。
正因为如此,我正在认真考虑不部署任何类型的RDBMS,而是直接在R中管理数据(保存RDS文件)。这将节省我安装管理数据库的痛苦,并可能提高数据加载速度。
有什么理由我应该考虑不同的原因吗?你知道有谁以这种方式管理他们的数据吗?我知道这很含糊,但我是在寻求意见,而不是答案。
发布于 2012-07-29 04:36:59
如果在R中工作是你的舒适区..我也会让你的数据管理在那里,即使你的分析或运行时间更长。
我最近也有类似的决定:
或者...
你跑步的产品是不是只适合你自己?如果是这样的话,我会坚持只在R中进行数据管理。即使生产运行速度较慢。
如果你正在为银行、手机服务或类似的交易环境设计一些东西,我建议你找到一个超级解决方案。
但是如果你的R制作是为你准备的..。我会留在R。
发布于 2012-07-30 08:19:06
考虑机会成本。学习一门新的语言/生态系统--像PostgreSQL这样的东西肯定是合格的--会比你想象的要耗费更多的时间。这些技能可能是有价值的,但它们会产生与您在现有分析上花费额外时间获得的回报一样高的时间投资回报吗?
如果它是个人使用的,并且没有紧迫的性能问题,请坚持使用R。考虑到使用文本和RDS文件通常比使用完全成熟的DB更容易做一些愚蠢的事情,所以只需确保备份所有内容。在过去的半年里,我对基于云的存储持极大的怀疑态度,现在,除了我最敏感的信息外,所有的信息都存储在那里。我使用的是Dropbox,如果你搞得一团糟,它会维护以前版本的数据。
能够在你的智能手机上查看角落里咖啡馆里的文档或脚本是很好的。
发布于 2012-12-01 11:48:31
CRAN中有一个逐列管理包colbycol,旨在为大型数据集提供类似DB的功能。我想作者一定也做过同样的分析。
https://stackoverflow.com/questions/11704207
复制相似问题