我有大量的时间序列数据,这些数据是以.rrd(循环数据库)格式存储在S3中的。我计划使用apache spark对此进行分析,以获得不同的性能矩阵。
目前我正在从s3下载.rrd文件,并使用rrd4j库对其进行处理。我打算做更长时间的处理,比如一年或更长时间。它涉及到处理数十万个.rrd文件。我希望spark nodes直接从s3获取文件并运行分析。如何让spark使用rrd4j读取.rrd文件?有没有什么库可以帮我做到这一点?spark是否支持处理这类数据?
发布于 2015-09-25 16:20:28
spark部分相当简单,在sparkContext上使用wholeTextFiles或binaryFiles (参见docs)。根据文档,rrd4j通常需要一个路径来构造rrd,但是使用RrdByteArrayBackend,您可以在其中加载数据-但这可能是一个问题,因为大多数API都是受保护的。您必须找到一种将Array[Byte]加载到rrd4j中的方法。
https://stackoverflow.com/questions/32755425
复制相似问题