我有一个众包应用程序。收集来自用户的数据,然后对其进行处理,然后进行更新,以供所有人查看。数据收集几乎是实时的。随着用户(数据节点)的增加,处理速度也在提高。我需要扩展一下。
看看基于图的模型的缩放,mapreduce似乎很有名。是否有将其与其他技术进行比较的基准测试论文?Pregel令人印象深刻。请告诉我关于pregel中“分区”的任何线索,即如何智能地对图进行分区,以最大限度地减少进程之间的滞后。
发布于 2012-05-14 16:52:08
为了最小化执行时间而“智能地”划分图的问题是一个有趣的问题,但它并不简单,它取决于您的数据和算法。您可能还会发现,在实践中,这不是必需的,随机分区就足够好了。
例如,如果您对探索类似Pregel的方法感兴趣,您可以研究一下Apache Giraph并试验不同的分区技术。
https://stackoverflow.com/questions/9583296
复制相似问题