我有一个大的数据集(200 9GB未压缩,9GB在bz2 -9压缩)股票滴答数据。
我想对它们进行一些基本的时间序列分析。
我的机器有16 My内存。
我宁愿:
现在,我认为这里有很好的交互,可以使用Clojure的懒惰和未来的对象(也就是说,我可以定义对象s.t )。当我试图访问它们时,我会即时解压它们。)
问:在Clojure中进行高性能时间序列分析时,我应该记住什么?
我特别感兴趣的技巧包括:
欢迎书籍/文章/研究论文的建议。(我是个CS PhD学生)。
谢谢。
发布于 2012-09-10 23:18:45
一些想法:
发布于 2012-09-11 02:22:32
我听说过类似用Java实现的系统。这是可能的。您当然希望了解如何创建自己的惰性序列来完成这一任务。如果您需要确保处理的是要处理的原始类型,我也会毫不犹豫地进入Java。例如,Clojure不会在32位ints上生成用于计算的代码,它只会生成用于longs的代码,如果您不想这样做,这可能会很痛苦。
让内存中的格式与磁盘格式兼容也是值得的。这将为您提供内存映射文件的选项,或者(至少)在程序崩溃时使您的启动变得容易。例如,它可以读取磁盘上的文件来恢复以前的状态。
https://stackoverflow.com/questions/12360437
复制相似问题