首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >风暴爬虫-技术栈和Apache Nutch

风暴爬虫-技术栈和Apache Nutch
EN

Stack Overflow用户
提问于 2016-04-06 04:20:07
回答 2查看 1.2K关注 0票数 1

我想抓取一个特定的论坛,接近实时,并将数据转储到HDFS,如果不是Hbase。

我听说Apache可以解决这个问题,但遗憾的是,它所需要的技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本,Elasticsearch降到1.7/1.4,所以我把注意力转移到了风暴爬虫上。

由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3,有人能告诉我是否可以使用风暴爬虫0.9吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-04-06 05:43:00

由于您有一个特殊的要求,以近乎实时的方式爬行论坛,纳奇不是最好的技术来完成这一点。Nutch在批处理中工作,这意味着生成链接,然后获取,然后解析,但这在当时不会发生一个链接。另一方面,风暴爬虫是基于Apache的,它是一个免费的、开源的分布式实时计算系统。

Storm目前确实支持将索引索引到Elasticsearch 1.7.2 (对版本2的支持正在进行https://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearch),目前还没有对HBase的索引支持,而且您不能使用hadoop设置,因为它是基于Apache的。尽管如此,Storm是“用于构建低延迟、可伸缩的web爬虫的资源集合”,因此您可以将自己的索引器螺栓编写到HBase中,这不应该太困难,并重用其他提供的资源,包括您需要的实时爬行。

票数 3
EN

Stack Overflow用户

发布于 2016-04-07 08:54:45

@jorge已经回答了关于ElasticSearch 2的问题。有一个拉出请求,我们正在测试它。至于Hadoop,好的StormCrawler不是以它为基础的,而是基于Apache的--因此得名。最后,目前没有用于HBase的资源,但可以添加此资源。你想用它做什么?我想这些文件都会用ES索引。你想把关于URLS的信息保存在那里(比如Nutch中的爬行数据库)吗?如果是这样,那么您也可以使用ES来存储状态,请查看StormCrawler中的ES模块以获得解释。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36441422

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档