我想抓取一个特定的论坛,接近实时,并将数据转储到HDFS,如果不是Hbase。
我听说Apache可以解决这个问题,但遗憾的是,它所需要的技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本,Elasticsearch降到1.7/1.4,所以我把注意力转移到了风暴爬虫上。
由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3,有人能告诉我是否可以使用风暴爬虫0.9吗?
发布于 2016-04-06 05:43:00
由于您有一个特殊的要求,以近乎实时的方式爬行论坛,纳奇不是最好的技术来完成这一点。Nutch在批处理中工作,这意味着生成链接,然后获取,然后解析,但这在当时不会发生一个链接。另一方面,风暴爬虫是基于Apache的,它是一个免费的、开源的分布式实时计算系统。
Storm目前确实支持将索引索引到Elasticsearch 1.7.2 (对版本2的支持正在进行https://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearch),目前还没有对HBase的索引支持,而且您不能使用hadoop设置,因为它是基于Apache的。尽管如此,Storm是“用于构建低延迟、可伸缩的web爬虫的资源集合”,因此您可以将自己的索引器螺栓编写到HBase中,这不应该太困难,并重用其他提供的资源,包括您需要的实时爬行。
发布于 2016-04-07 08:54:45
@jorge已经回答了关于ElasticSearch 2的问题。有一个拉出请求,我们正在测试它。至于Hadoop,好的StormCrawler不是以它为基础的,而是基于Apache的--因此得名。最后,目前没有用于HBase的资源,但可以添加此资源。你想用它做什么?我想这些文件都会用ES索引。你想把关于URLS的信息保存在那里(比如Nutch中的爬行数据库)吗?如果是这样,那么您也可以使用ES来存储状态,请查看StormCrawler中的ES模块以获得解释。
https://stackoverflow.com/questions/36441422
复制相似问题