首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Cassandra vs HDFS存储分析数据

Cassandra vs HDFS存储分析数据
EN

Stack Overflow用户
提问于 2017-03-30 07:33:52
回答 1查看 900关注 0票数 3

我们有一个Apache集群,用于分析存储在HDFS (.parquet)中的数据。解决方案在性能上是最优的,但它并不像我们所希望的那样是灾难安全的,事实上,HDFS体系结构有一个单一的故障点( namenode),甚至使用两个namenode (您只有2个故障点,但这还不够)。为了提高集群的容错能力,我们希望转移到另一个数据存储解决方案,比如Cassandra。问题如下:

  • 有了卡桑德拉作为数据存储,星火是否能够利用DataLocality,就像它对HDFS一样?
  • 此更改如何影响性能?

谢谢

马泰奥

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-30 08:50:33

有一篇关于数据局部性、spark和Cassandra的文章,所以是的,有可能:

https://www.slideshare.net/SparkSummit/cassandra-and-spark-optimizing-russell-spitzer-1

我没有在HDFS和Cassandra上对Spark做过任何性能检查,我相信它会根据不同的工作流程而有所不同,但是由于Netflix和微软使用Cassandra和Spark,我相信性能在大多数情况下都是可以接受的,而且可能是数据摄入速度、ETL的存在/不存在和分析过程的速度之间的一种权衡。

关于hadoop单点故障--如果您将使用复制因子3和一致性级别仲裁运行Cassandra,您将得到相同的2个节点,这将使数据不可用:),请记住。

也许考虑MapR hadoop分发,他们试图解决namenode问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43111342

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档