首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >集成了Mongdb,加快了数据处理速度

集成了Mongdb,加快了数据处理速度
EN

Stack Overflow用户
提问于 2014-09-01 01:02:54
回答 1查看 349关注 0票数 3

Mongodb可以与hadoop集成以进行更快的数据处理,但在此集成过程中( mongodb -> hadoop ),数据会从mongodb传输到hadoop。问题是,

1.从mongodb到hadoop的数据传输成本是不是比mongodb的实际数据处理成本要高?

2.数据传输( mongodb -> hadoop )是一次性活动吗?如果是,mongodb的后续更新将如何反映在hadoop中。

EN

回答 1

Stack Overflow用户

发布于 2015-03-16 23:33:04

为了满足“单一来源的真理”原则,你应该尽量不“复制”数据,也不应该在HDFS中保持冗余。

为了避免这种情况,Mongo-Hadoop连接器允许您直接查询Mongodb,而不是本地HDFS。当然,这具有缺点,即生产数据库会获得更多负载。另一种方法是查询您的mongodb bson转储。

回答你的问题的

设置为1:如果Hadoop节点“靠近”mongo节点,则开销不会太大。当您使用Hadoops的map reduce时,它使您能够使用更多的功能,如蜂窝,猪,...你不能在Mongos Map Reduce上使用它。它使您能够在不接触数据库的情况下扩展demaned上的“计算能力”(将使用所有hadoop节点)。在MongoDB上,您需要注意分片键)。

2.:你一遍又一遍地做。(预期您正在使用上限收集,并且您配置了一个Stream来处理它。但我猜你并没有使用这些)。

您应该在大数据书籍http://www.manning.com/marz/中阅读有关Lambda Architecture的信息。它们很好地定义了为什么要结合smth。比如MongoDB和Hadoop。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25594276

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档