问使用spark处理.rrd(循环调度数据)的库
EN

Stack Overflow用户

提问于 2015-09-24 15:10:27

回答 1查看 308关注 0票数 0

我有大量的时间序列数据，这些数据是以.rrd(循环数据库)格式存储在S3中的。我计划使用apache spark对此进行分析，以获得不同的性能矩阵。

目前我正在从s3下载.rrd文件，并使用rrd4j库对其进行处理。我打算做更长时间的处理，比如一年或更长时间。它涉及到处理数十万个.rrd文件。我希望spark nodes直接从s3获取文件并运行分析。如何让spark使用rrd4j读取.rrd文件？有没有什么库可以帮我做到这一点？spark是否支持处理这类数据？

apache-spark

spark-streaming

rrdtool

回答 1

Stack Overflow用户

发布于 2015-09-25 16:20:28

spark部分相当简单，在sparkContext上使用wholeTextFiles或binaryFiles (参见docs)。根据文档，rrd4j通常需要一个路径来构造rrd，但是使用RrdByteArrayBackend，您可以在其中加载数据-但这可能是一个问题，因为大多数API都是受保护的。您必须找到一种将Array[Byte]加载到rrd4j中的方法。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32755425

复制

相似问题

问使用spark处理.rrd(循环调度数据)的库
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用spark处理.rrd(循环调度数据)的库EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用spark处理.rrd(循环调度数据)的库
EN