我们有一个Apache集群,用于分析存储在HDFS (.parquet)中的数据。解决方案在性能上是最优的,但它并不像我们所希望的那样是灾难安全的,事实上,HDFS体系结构有一个单一的故障点( namenode),甚至使用两个namenode (您只有2个故障点,但这还不够)。为了提高集群的容错能力,我们希望转移到另一个数据存储解决方案,比如Cassandra。问题如下:
谢谢
马泰奥
发布于 2017-03-30 08:50:33
有一篇关于数据局部性、spark和Cassandra的文章,所以是的,有可能:
https://www.slideshare.net/SparkSummit/cassandra-and-spark-optimizing-russell-spitzer-1
我没有在HDFS和Cassandra上对Spark做过任何性能检查,我相信它会根据不同的工作流程而有所不同,但是由于Netflix和微软使用Cassandra和Spark,我相信性能在大多数情况下都是可以接受的,而且可能是数据摄入速度、ETL的存在/不存在和分析过程的速度之间的一种权衡。
关于hadoop单点故障--如果您将使用复制因子3和一致性级别仲裁运行Cassandra,您将得到相同的2个节点,这将使数据不可用:),请记住。
也许考虑MapR hadoop分发,他们试图解决namenode问题。
https://stackoverflow.com/questions/43111342
复制相似问题