文章/答案/技术大牛

发布

社区首页 >问答首页 >风暴爬虫-技术栈和Apache Nutch

问风暴爬虫-技术栈和Apache Nutch
EN

Stack Overflow用户

提问于 2016-04-06 04:20:07

回答 2查看 1.2K关注 0票数 1

我想抓取一个特定的论坛，接近实时，并将数据转储到HDFS，如果不是Hbase。

我听说Apache可以解决这个问题，但遗憾的是，它所需要的技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本，Elasticsearch降到1.7/1.4，所以我把注意力转移到了风暴爬虫上。

由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3，有人能告诉我是否可以使用风暴爬虫0.9吗？

web-crawler

apache-storm

nutch

stormcrawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-04-06 05:43:00

由于您有一个特殊的要求，以近乎实时的方式爬行论坛，纳奇不是最好的技术来完成这一点。Nutch在批处理中工作，这意味着生成链接，然后获取，然后解析，但这在当时不会发生一个链接。另一方面，风暴爬虫是基于Apache的，它是一个免费的、开源的分布式实时计算系统。

Storm目前确实支持将索引索引到Elasticsearch 1.7.2 (对版本2的支持正在进行https://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearch)，目前还没有对HBase的索引支持，而且您不能使用hadoop设置，因为它是基于Apache的。尽管如此，Storm是“用于构建低延迟、可伸缩的web爬虫的资源集合”，因此您可以将自己的索引器螺栓编写到HBase中，这不应该太困难，并重用其他提供的资源，包括您需要的实时爬行。

票数 3

Stack Overflow用户

发布于 2016-04-07 08:54:45

@jorge已经回答了关于ElasticSearch 2的问题。有一个拉出请求，我们正在测试它。至于Hadoop，好的StormCrawler不是以它为基础的，而是基于Apache的--因此得名。最后，目前没有用于HBase的资源，但可以添加此资源。你想用它做什么？我想这些文件都会用ES索引。你想把关于URLS的信息保存在那里(比如Nutch中的爬行数据库)吗？如果是这样，那么您也可以使用ES来存储状态，请查看StormCrawler中的ES模块以获得解释。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36441422

复制

相似问题

问风暴爬虫-技术栈和Apache Nutch
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问风暴爬虫-技术栈和Apache NutchEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问风暴爬虫-技术栈和Apache Nutch
EN