文章/答案/技术大牛

发布

社区首页 >问答首页 >Cassandra vs HDFS存储分析数据

问Cassandra vs HDFS存储分析数据
EN

Stack Overflow用户

提问于 2017-03-30 07:33:52

回答 1查看 900关注 0票数 3

我们有一个Apache集群，用于分析存储在HDFS (.parquet)中的数据。解决方案在性能上是最优的，但它并不像我们所希望的那样是灾难安全的，事实上，HDFS体系结构有一个单一的故障点( namenode)，甚至使用两个namenode (您只有2个故障点，但这还不够)。为了提高集群的容错能力，我们希望转移到另一个数据存储解决方案，比如Cassandra。问题如下：

有了卡桑德拉作为数据存储，星火是否能够利用DataLocality，就像它对HDFS一样？
此更改如何影响性能？

谢谢

马泰奥

performance

apache-spark

cassandra

hdfs

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-30 08:50:33

有一篇关于数据局部性、spark和Cassandra的文章，所以是的，有可能：

https://www.slideshare.net/SparkSummit/cassandra-and-spark-optimizing-russell-spitzer-1

我没有在HDFS和Cassandra上对Spark做过任何性能检查，我相信它会根据不同的工作流程而有所不同，但是由于Netflix和微软使用Cassandra和Spark，我相信性能在大多数情况下都是可以接受的，而且可能是数据摄入速度、ETL的存在/不存在和分析过程的速度之间的一种权衡。

关于hadoop单点故障--如果您将使用复制因子3和一致性级别仲裁运行Cassandra，您将得到相同的2个节点，这将使数据不可用:)，请记住。

也许考虑MapR hadoop分发，他们试图解决namenode问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43111342

复制

相似问题

问Cassandra vs HDFS存储分析数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Cassandra vs HDFS存储分析数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Cassandra vs HDFS存储分析数据
EN