问Map Reduce和RDBMS
EN

Stack Overflow用户

提问于 2015-10-31 13:07:44

回答 1查看 484关注 0票数 0

我正在读hadoop权威指南，它写着Map Reduce有利于更新数据库的更大部分，它使用排序和合并来重建依赖于传输时间的数据库。

此外，RDBMS还适合于仅更新大型数据库的较小部分，它使用的B-Tree受查找时间的限制

有没有人能详细说明这两种说法的真正含义？

hadoop

mapreduce

回答 1

Stack Overflow用户

发布于 2015-11-01 06:32:55

我不太确定这本书是什么意思，但如果你仍然有原始数据，你通常会做一个map reduce工作来重建整个数据库/任何东西。

hadoop真正的好处是它是分布式的，所以性能并不是问题，因为您可以添加更多的机器。

让我们举个例子，你需要重建一个有10亿行的复杂表。使用RDBMS，您只能垂直扩展，因此您将更多地依赖于CPU的能力以及算法的速度。您将使用一些SQL命令来完成此操作。你将需要选择一些数据，处理它们，做一些事情，等等，所以你很可能会受到搜索时间的限制。

使用hadoop map reduce，您只需添加更多的机器，因此性能不是问题。假设您使用10000个映射器，这意味着任务将被划分为10000个映射器容器，并且由于hadoop的性质，所有这些容器通常已经将数据存储在本地硬盘驱动器上。每个映射器的输出始终是本地硬盘上的键值结构化格式。映射器使用键对这些数据进行排序。

现在的问题是，他们需要将数据组合在一起，因此所有这些数据都将被发送到reducer。如果您有大数据，这通常是通过网络进行的最慢的部分。reducer将接收所有数据，并对它们进行合并排序以进行进一步处理。最后，你有一个文件，可以直接上传到你的数据库。

如果您有大量数据，从mapper到reducer的传输通常会花费最长的时间，而网络通常是您的瓶颈。也许这就是它所说的取决于传输时间的意思。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33448268

复制

相似问题

问Map Reduce和RDBMS
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Map Reduce和RDBMSEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Map Reduce和RDBMS
EN