Mongodb可以与hadoop集成以进行更快的数据处理,但在此集成过程中( mongodb -> hadoop ),数据会从mongodb传输到hadoop。问题是,
1.从mongodb到hadoop的数据传输成本是不是比mongodb的实际数据处理成本要高?
2.数据传输( mongodb -> hadoop )是一次性活动吗?如果是,mongodb的后续更新将如何反映在hadoop中。
发布于 2015-03-16 23:33:04
为了满足“单一来源的真理”原则,你应该尽量不“复制”数据,也不应该在HDFS中保持冗余。
为了避免这种情况,Mongo-Hadoop连接器允许您直接查询Mongodb,而不是本地HDFS。当然,这具有缺点,即生产数据库会获得更多负载。另一种方法是查询您的mongodb bson转储。
回答你的问题的:
设置为1:如果Hadoop节点“靠近”mongo节点,则开销不会太大。当您使用Hadoops的map reduce时,它使您能够使用更多的功能,如蜂窝,猪,...你不能在Mongos Map Reduce上使用它。它使您能够在不接触数据库的情况下扩展demaned上的“计算能力”(将使用所有hadoop节点)。在MongoDB上,您需要注意分片键)。
2.:你一遍又一遍地做。(预期您正在使用上限收集,并且您配置了一个Stream来处理它。但我猜你并没有使用这些)。
您应该在大数据书籍http://www.manning.com/marz/中阅读有关Lambda Architecture的信息。它们很好地定义了为什么要结合smth。比如MongoDB和Hadoop。
https://stackoverflow.com/questions/25594276
复制相似问题