Hadoop地图-减少和它的回声系统(如蜂巢..)我们通常用于批处理。但是我想知道是否有任何方法可以使用hadoop MapReduce作为实时数据处理的例子,比如实时结果,实时tweet。
如果不是,实时数据处理或分析的替代方案是什么?
发布于 2018-12-18 21:23:07
实时应用程序与地图减少,让我们尝试实现一个实时应用程序使用Hadoop.为了理解这个场景,让我们考虑一个温度传感器。假设传感器继续工作,我们将继续获取新的读数。所以数据永远不会停止。
我们不应该等待数据完成,因为它永远不会发生。然后也许我们应该继续定期进行分析(例如每小时一次)。我们可以每小时运行一次星火,得到最后一个小时的数据。
如果我们每小时都需要最后24小时的分析呢?我们应该每小时重新处理过去24小时的数据吗?也许我们可以计算每小时的数据,存储它,并使用它们来计算24小时的数据。它可以工作,但我必须编写代码才能做到这一点。
我们的问题才刚刚开始。让我们重复几个使我们的问题复杂化的需求。
流处理这类问题的正确工具称为“流处理”。这里的“流”是指数据流。将继续出现的数据序列。“流处理”可以在数据输入时观察它们,处理它们,并在毫秒内对它们作出响应。
下面是我们想要超越批处理( Hadoop/ Spark)的原因,我们的舒适区域,并考虑流处理。
发布于 2018-12-18 17:30:09
在HDP 3.1中,引入了Hive集成来处理实时数据.有关更多信息,请参见docs:Apache Kafka集成
您可以使用将Apache添加到Hadoop集群中来处理对事件数据的OLAP查询,还可以在Druid中使用Hive和Kafka。
https://stackoverflow.com/questions/53833704
复制相似问题