首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用spark处理.rrd(循环调度数据)的库

使用spark处理.rrd(循环调度数据)的库
EN

Stack Overflow用户
提问于 2015-09-24 15:10:27
回答 1查看 308关注 0票数 0

我有大量的时间序列数据,这些数据是以.rrd(循环数据库)格式存储在S3中的。我计划使用apache spark对此进行分析,以获得不同的性能矩阵。

目前我正在从s3下载.rrd文件,并使用rrd4j库对其进行处理。我打算做更长时间的处理,比如一年或更长时间。它涉及到处理数十万个.rrd文件。我希望spark nodes直接从s3获取文件并运行分析。如何让spark使用rrd4j读取.rrd文件?有没有什么库可以帮我做到这一点?spark是否支持处理这类数据?

EN

回答 1

Stack Overflow用户

发布于 2015-09-25 16:20:28

spark部分相当简单,在sparkContext上使用wholeTextFilesbinaryFiles (参见docs)。根据文档,rrd4j通常需要一个路径来构造rrd,但是使用RrdByteArrayBackend,您可以在其中加载数据-但这可能是一个问题,因为大多数API都是受保护的。您必须找到一种将Array[Byte]加载到rrd4j中的方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32755425

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档