首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >StormCrawler设置

StormCrawler设置
EN

Stack Overflow用户
提问于 2018-03-23 15:47:47
回答 1查看 439关注 0票数 0

关于StormCrawler:http://stormcrawler.net/,我有几个问题

1.拒绝商店爬行:

我尝试在默认的-regex-filters.txt:-(shop)中使用这个regex。这样做对吗?因为风暴爬虫仍然抓取那些在其网址中有“商店”的网站。

2. "maxDepth“参数是做什么的?

我需要的可能性,以限制每个网站的爬行深度,例如,只要抓取的网页是“一次点击/水平”远离/home网站。这是那个用例的正确参数吗?如果没有,我们在哪里可以选择呢?

3. Elasticsearch:发现和获取的

我会明白,发现的东西总是比取出来的要大。但我有一些案子是被取出来的。对此有什么解释吗?或者发现了什么?获取到底意味着什么?

配置条目:parse.emitOutlinks

我不太明白它的意义。有什么简单的解释吗?因为当我将其设置为false时,爬虫只会抓取URL的第一页,而我不知道为什么。

5.“取线程”和“每个队列的线程”之间的区别?

我们目前每个队列使用200个取款器线程和20个线程。这两者的比例如何?

很抱歉有那么多问题,但我真的很感谢你的帮助。提前谢谢你!

致以敬意,

乔乔

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-23 16:15:11

1.否认商店的爬行

-.*(商店)应该能工作。您尝试过的表达式不允许在购物前使用任何字符。

2. "maxDepth“参数是做什么的?

是的,这正是它所做的。它从种子URL中跟踪深度,并过滤超出您设置的阈值的任何内容。

3. Elasticsearch:发现和获取的

请参阅为什么在状态和索引中有不同的文档计数?

为什么不看看教程和WIKI呢?

4.配置条目: parse.emitOutlinks

顾名思义,此参数阻止解析器螺栓将链接添加到状态流。这是有用的,当你不想扩大爬行和只取种子。

5.“取线程”和“每个队列的线程”之间的区别?

取取线程是一个FetcherBolt中用于获取URL的线程数。FetcherBolt根据传入URL的主机名(或域或IP)和来自这些队列的取取器线程轮询将传入的URL放置到内部队列中。默认情况下,StormCrawler只允许每个内部队列一个取取线程,这样爬行是礼貌的,并且不会太频繁地向目标主机发送请求。

如果您还没有这样做,我建议您查看有关YouTube的视频教程。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49453608

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档