文章/答案/技术大牛

发布

社区首页 >问答首页 >HDFS、Hadoop中的低延迟数据访问

问HDFS、Hadoop中的低延迟数据访问
EN

Stack Overflow用户

提问于 2017-04-25 09:33:18

回答 1查看 2.2K关注 0票数 1

我正在阅读关于大数据和Hadoop的教程，在那里我在HDFS上找到了以下两点

流数据访问:在读取第一个数据集时，读取整个数据集的时间比延迟时间更重要。HDFS是建立在写一次和读-多次模式.

低延迟数据访问:访问第一次数据所需时间非常少的应用程序不应该使用HDFS，因为它重视整个数据，而不是获取第一条记录的时间。

我很困惑，因为第一位说读取整个数据集的时间更重要，第二位说...should不使用HDFS，因为它重视整个数据。

我不明白这是什么期待？我是刚认识Hadoop的。

hadoop

dataset

hdfs

回答 1

Stack Overflow用户

发布于 2017-04-25 10:07:32

流数据访问：

HDFS是基于“写一次，读很多次”的原则。主要关注的是以最快的方式读取完整的数据集，这比花时间从数据集中获取单个记录更为重要。

As Hadoop :权威指南

MapReduce基本上是一个批处理系统，不适合交互分析。您无法在几秒钟或更短的时间内运行查询并获得结果。查询通常需要几分钟或更长时间，所以最好离线使用，因为在处理循环中没有人在等待结果。

MapReduce非常适合需要批量分析整个数据集的问题。RDBMS适用于点查询或更新，其中dataset已被索引以提供相对较少数据量的低延迟检索和更新时间。MapReduce适用于数据只编写一次并多次读取的应用程序，而关系数据库则适用于不断更新的数据集。

延迟：请参阅下面的What is low latency access of data?

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43606835

复制

相似问题

问HDFS、Hadoop中的低延迟数据访问
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HDFS、Hadoop中的低延迟数据访问EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HDFS、Hadoop中的低延迟数据访问
EN