问集成了Mongdb，加快了数据处理速度
EN

Stack Overflow用户

提问于 2014-09-01 01:02:54

回答 1查看 349关注 0票数 3

Mongodb可以与hadoop集成以进行更快的数据处理，但在此集成过程中( mongodb -> hadoop )，数据会从mongodb传输到hadoop。问题是，

1.从mongodb到hadoop的数据传输成本是不是比mongodb的实际数据处理成本要高？

2.数据传输( mongodb -> hadoop )是一次性活动吗?如果是，mongodb的后续更新将如何反映在hadoop中。

mongodb

hadoop

回答 1

Stack Overflow用户

发布于 2015-03-16 23:33:04

为了满足“单一来源的真理”原则，你应该尽量不“复制”数据，也不应该在HDFS中保持冗余。

为了避免这种情况，Mongo-Hadoop连接器允许您直接查询Mongodb，而不是本地HDFS。当然，这具有缺点，即生产数据库会获得更多负载。另一种方法是查询您的mongodb bson转储。

回答你的问题的：

设置为1:如果Hadoop节点“靠近”mongo节点，则开销不会太大。当您使用Hadoops的map reduce时，它使您能够使用更多的功能，如蜂窝，猪，...你不能在Mongos Map Reduce上使用它。它使您能够在不接触数据库的情况下扩展demaned上的“计算能力”(将使用所有hadoop节点)。在MongoDB上，您需要注意分片键)。

2.：你一遍又一遍地做。(预期您正在使用上限收集，并且您配置了一个Stream来处理它。但我猜你并没有使用这些)。

您应该在大数据书籍http://www.manning.com/marz/中阅读有关Lambda Architecture的信息。它们很好地定义了为什么要结合smth。比如MongoDB和Hadoop。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25594276

复制

相似问题

问集成了Mongdb，加快了数据处理速度
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问集成了Mongdb，加快了数据处理速度EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问集成了Mongdb，加快了数据处理速度
EN