首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >HDFS、Hadoop中的低延迟数据访问

HDFS、Hadoop中的低延迟数据访问
EN

Stack Overflow用户
提问于 2017-04-25 09:33:18
回答 1查看 2.2K关注 0票数 1

我正在阅读关于大数据和Hadoop的教程,在那里我在HDFS上找到了以下两点

流数据访问:在读取第一个数据集时,读取整个数据集的时间比延迟时间更重要。HDFS是建立在写一次和读-多次模式.

&

低延迟数据访问:访问第一次数据所需时间非常少的应用程序不应该使用HDFS,因为它重视整个数据,而不是获取第一条记录的时间。

我很困惑,因为第一位说读取整个数据集的时间更重要,第二位说...should不使用HDFS,因为它重视整个数据。

我不明白这是什么期待?我是刚认识Hadoop的。

EN

回答 1

Stack Overflow用户

发布于 2017-04-25 10:07:32

流数据访问:

HDFS是基于“写一次,读很多次”的原则。主要关注的是以最快的方式读取完整的数据集,这比花时间从数据集中获取单个记录更为重要。

As Hadoop :权威指南

MapReduce基本上是一个批处理系统,不适合交互分析。您无法在几秒钟或更短的时间内运行查询并获得结果。查询通常需要几分钟或更长时间,所以最好离线使用,因为在处理循环中没有人在等待结果。

MapReduce非常适合需要批量分析整个数据集的问题。RDBMS适用于点查询或更新,其中dataset已被索引以提供相对较少数据量的低延迟检索和更新时间。MapReduce适用于数据只编写一次并多次读取的应用程序,而关系数据库则适用于不断更新的数据集。

延迟:请参阅下面的What is low latency access of data?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43606835

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档