首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Map Reduce和RDBMS

Map Reduce和RDBMS
EN

Stack Overflow用户
提问于 2015-10-31 13:07:44
回答 1查看 484关注 0票数 0

我正在读hadoop权威指南,它写着Map Reduce有利于更新数据库的更大部分,它使用排序和合并来重建依赖于传输时间的数据库。

此外,RDBMS还适合于仅更新大型数据库的较小部分,它使用的B-Tree受查找时间的限制

有没有人能详细说明这两种说法的真正含义?

EN

回答 1

Stack Overflow用户

发布于 2015-11-01 06:32:55

我不太确定这本书是什么意思,但如果你仍然有原始数据,你通常会做一个map reduce工作来重建整个数据库/任何东西。

hadoop真正的好处是它是分布式的,所以性能并不是问题,因为您可以添加更多的机器。

让我们举个例子,你需要重建一个有10亿行的复杂表。使用RDBMS,您只能垂直扩展,因此您将更多地依赖于CPU的能力以及算法的速度。您将使用一些SQL命令来完成此操作。你将需要选择一些数据,处理它们,做一些事情,等等,所以你很可能会受到搜索时间的限制。

使用hadoop map reduce,您只需添加更多的机器,因此性能不是问题。假设您使用10000个映射器,这意味着任务将被划分为10000个映射器容器,并且由于hadoop的性质,所有这些容器通常已经将数据存储在本地硬盘驱动器上。每个映射器的输出始终是本地硬盘上的键值结构化格式。映射器使用键对这些数据进行排序。

现在的问题是,他们需要将数据组合在一起,因此所有这些数据都将被发送到reducer。如果您有大数据,这通常是通过网络进行的最慢的部分。reducer将接收所有数据,并对它们进行合并排序以进行进一步处理。最后,你有一个文件,可以直接上传到你的数据库。

如果您有大量数据,从mapper到reducer的传输通常会花费最长的时间,而网络通常是您的瓶颈。也许这就是它所说的取决于传输时间的意思。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33448268

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档