首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >实时场景下Hadoop的POC

实时场景下Hadoop的POC
EN

Stack Overflow用户
提问于 2013-01-12 15:36:57
回答 8查看 26.9K关注 0票数 6

我有点问题。我想了解Hadoop,以及如何使用它实时处理数据流。因此,我想围绕它建立一个有意义的,以便在我必须在某个潜在雇主面前证明我对它的了解或在我目前的公司中介绍它的时候,展示它。

我还想指出,我的硬件资源有限。我只知道我和我的笔记本电脑:)我知道Hadoop的基本知识,并且写了2-3个基本的MR乔布斯。我想做一些更有意义或更真实的事情。

请建议一下。

提前谢谢。

EN

回答 8

Stack Overflow用户

回答已采纳

发布于 2013-01-12 17:50:25

我想指出几点。

如果您只想用1台膝上型电脑做POC,那么使用Hadoop就没什么意义了。

另外,正如其他人所说,Hadoop不是为实时应用程序设计的,因为在运行Map/Reduce作业时存在一些开销。

尽管如此,Cloudera发布了黑斑羚,它与Hadoop生态系统(特别是蜂巢转移)一起工作,以实现实时性能。请注意,为了实现这一目标,它不会生成Map/Reduce作业,并且目前处于测试阶段,所以请小心使用它。

所以我真的建议去Impala,这样你仍然可以使用Hadoop生态系统,但是如果你也在考虑其他的选择,这里有一些其他的框架是有用的:

  • 德鲁伊:是由MetaMarkets开源的。看上去很有趣,尽管我自己也没用过。
  • 风暴:没有与HDFS集成,它只是在数据出现时进行处理。
  • HStreaming:与Hadoop集成。
  • 雅虎S4:看起来离暴风雨很近。

最后,我认为您应该真正地分析您的需求,看看使用Hadoop是否是您所需要的,因为它只是在实时空间中才刚刚起步。还有其他几个项目可以帮助您实现实时性能。

如果你想展示项目的想法,我建议你看看此链接。她的例子如下:

  • 金融/保险
    • 根据行业/公司指标、投资组合多样性和货币风险,将投资机会分为好或坏。
    • 将信用卡交易分类为有效或无效,例如交易地点和信用卡持有者、日期、金额、购买项目或服务、交易历史和类似交易。

  • 生物学/医学
    • 将蛋白质分为结构类或功能类
    • 诊断分类,例如基于图像的癌症肿瘤

  • 因特网
    • 文档分类与排序
    • 恶意软件分类,电子邮件/推特/网页垃圾邮件分类

  • 生产系统(例如在能源或石化行业)
    • 根据来自传感器的实时和历史数据对情况进行分类和检测(例如,甜蜜点或风险情况)

票数 10
EN

Stack Overflow用户

发布于 2013-02-18 14:18:04

如果您想要在非常有前途的流框架上弄巧成拙,请尝试BDAS火花流。请注意,这还没有发布,但是您可以在笔记本中使用github版本(https://github.com/mesos/spark/tree/streaming),有许多示例可供您开始使用。

与现有的框架相比,这也有许多优点,1.它使您能够将实时计算和批处理计算结合在一个堆栈2中,它将给您一个REPL,您可以在这里以交互的方式尝试您的临时查询。3.你可以在你的笔记本电脑上以本地模式运行。还有许多其他的优点,但这三个,我相信,将满足您的需要,开始。

您可能需要学习scala来尝试REPL :-(

有关更多信息,请访问http://spark-project.org/

票数 3
EN

Stack Overflow用户

发布于 2013-01-12 17:30:13

Hadoop是一个面向高吞吐量的框架,适用于批处理过程。如果您对实时处理和分析海量数据集感兴趣,请查看twitter风暴。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14294864

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档