我正在对编程“大数据”进行一些调查和研究,并且对QuantCast (QFS)特别感兴趣,因为它是用我自己最喜欢的编程语言C++编写的。
看看这在解决某些“大数据”问题中的作用,我知道这可以管理peta字节文件系统的实现。然而,我想知道,对于不太大的大数据系统,它的可伸缩性有多大。
我看到了许多QFS和Hadoop之间的比较,以及QFS如何能够优于Hadoop,所以任何使用Hadoop的人都可以考虑使用Quantcast (如果他们只想要超级性能的话)。
从本质上讲,它对于中到大型项目是否具有可伸缩性?(有人同样询问BDD,但没有问Quantcast)
(我也见过Hadoop和Quantcast被称为“数据库”。我会称它为文件系统,在此基础上可以构建数据库,但不称其为数据库本身)。
发布于 2013-08-20 01:03:29
免责声明-我在Quantcast工作
QFS的“规模速度”好处当然会变得更加明显,部署规模越大,使用越频繁,但这并不意味着部署规模越小,就没有什么好处。但是,如果您没有全天候运行集群(就像Quantcast中的Quantcast那样),并且您的集群相对较小,那么速度不是您使用QFS的主要动机。
在任何规模上都可以获得的好处是,相对于HDFS为同一级别的数据完整性提供的数据完整性,对于给定的硬件部署而言,逻辑存储容量会增加,这是因为QFS使用里德-所罗门纠错,而不是直接重复(就像HDFS中的3路复制一样)。QFS纠错方法还将任意给定数据集的容错能力从2个节点(具有3路数据复制)提高到3个。当涉及到运行集群时,更多的容错能力和一半的物理空间转化为真正的美元。它的价值不能低估,因为它基本上是你的资本支出的有用性的翻倍。这就是为什么我们在QFS中增加里德-所罗门特性的原因。
https://softwareengineering.stackexchange.com/questions/207378
复制相似问题