我有点问题。我想了解Hadoop,以及如何使用它实时处理数据流。因此,我想围绕它建立一个有意义的,以便在我必须在某个潜在雇主面前证明我对它的了解或在我目前的公司中介绍它的时候,展示它。
我还想指出,我的硬件资源有限。我只知道我和我的笔记本电脑:)我知道Hadoop的基本知识,并且写了2-3个基本的MR乔布斯。我想做一些更有意义或更真实的事情。
请建议一下。
提前谢谢。
发布于 2013-01-12 17:50:25
我想指出几点。
如果您只想用1台膝上型电脑做POC,那么使用Hadoop就没什么意义了。
另外,正如其他人所说,Hadoop不是为实时应用程序设计的,因为在运行Map/Reduce作业时存在一些开销。
尽管如此,Cloudera发布了黑斑羚,它与Hadoop生态系统(特别是蜂巢转移)一起工作,以实现实时性能。请注意,为了实现这一目标,它不会生成Map/Reduce作业,并且目前处于测试阶段,所以请小心使用它。
所以我真的建议去Impala,这样你仍然可以使用Hadoop生态系统,但是如果你也在考虑其他的选择,这里有一些其他的框架是有用的:
最后,我认为您应该真正地分析您的需求,看看使用Hadoop是否是您所需要的,因为它只是在实时空间中才刚刚起步。还有其他几个项目可以帮助您实现实时性能。
如果你想展示项目的想法,我建议你看看此链接。她的例子如下:
发布于 2013-02-18 14:18:04
如果您想要在非常有前途的流框架上弄巧成拙,请尝试BDAS火花流。请注意,这还没有发布,但是您可以在笔记本中使用github版本(https://github.com/mesos/spark/tree/streaming),有许多示例可供您开始使用。
与现有的框架相比,这也有许多优点,1.它使您能够将实时计算和批处理计算结合在一个堆栈2中,它将给您一个REPL,您可以在这里以交互的方式尝试您的临时查询。3.你可以在你的笔记本电脑上以本地模式运行。还有许多其他的优点,但这三个,我相信,将满足您的需要,开始。
您可能需要学习scala来尝试REPL :-(
有关更多信息,请访问http://spark-project.org/
发布于 2013-01-12 17:30:13
Hadoop是一个面向高吞吐量的框架,适用于批处理过程。如果您对实时处理和分析海量数据集感兴趣,请查看twitter风暴。
https://stackoverflow.com/questions/14294864
复制相似问题