我目前有数百万条推文存储在HDFS中,我计划从Spark (数据挖掘、文本挖掘、基于频繁术语的文本聚类、社交网络分析)中分析它们,但是,我不知道使用数据库而不是HDFS来处理数据是否有好处。
(在效率、工作量等方面)是有道理的。使用来自任何数据库(可能是MondoDB)的数据,而不是直接进入HDFS (以json格式存储)?考虑到分析结果,我会从斯派克进行分析。
发布于 2016-03-24 08:08:08
一个弹性分布式数据集(RDD),它是Spark中的基本抽象。表示可以并行操作的不可变的分区元素集合。
火花工作主要在记忆中。
作为第一个答案,我将说,为了使分析不需要将数据放在数据库中。
https://softwareengineering.stackexchange.com/questions/313664
复制相似问题