文章/答案/技术大牛

发布

社区首页 >问答首页 >StormCrawler设置

问StormCrawler设置
EN

Stack Overflow用户

提问于 2018-03-23 15:47:47

回答 1查看 439关注 0票数 0

关于StormCrawler：http://stormcrawler.net/，我有几个问题

1.拒绝商店爬行：

我尝试在默认的-regex-filters.txt：-(shop)中使用这个regex。这样做对吗？因为风暴爬虫仍然抓取那些在其网址中有“商店”的网站。

2. "maxDepth“参数是做什么的？

我需要的可能性，以限制每个网站的爬行深度，例如，只要抓取的网页是“一次点击/水平”远离/home网站。这是那个用例的正确参数吗？如果没有，我们在哪里可以选择呢？

3. Elasticsearch:发现和获取的

我会明白，发现的东西总是比取出来的要大。但我有一些案子是被取出来的。对此有什么解释吗?或者发现了什么?获取到底意味着什么？

配置条目：parse.emitOutlinks

我不太明白它的意义。有什么简单的解释吗？因为当我将其设置为false时，爬虫只会抓取URL的第一页，而我不知道为什么。

5.“取线程”和“每个队列的线程”之间的区别？

我们目前每个队列使用200个取款器线程和20个线程。这两者的比例如何？

很抱歉有那么多问题，但我真的很感谢你的帮助。提前谢谢你！

致以敬意，

乔乔

apache

web-crawler

apache-storm

stormcrawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-23 16:15:11

1.否认商店的爬行

-.*(商店)应该能工作。您尝试过的表达式不允许在购物前使用任何字符。

2. "maxDepth“参数是做什么的？

是的，这正是它所做的。它从种子URL中跟踪深度，并过滤超出您设置的阈值的任何内容。

3. Elasticsearch:发现和获取的

请参阅为什么在状态和索引中有不同的文档计数？

为什么不看看教程和WIKI呢？

4.配置条目: parse.emitOutlinks

顾名思义，此参数阻止解析器螺栓将链接添加到状态流。这是有用的，当你不想扩大爬行和只取种子。

5.“取线程”和“每个队列的线程”之间的区别？

取取线程是一个FetcherBolt中用于获取URL的线程数。FetcherBolt根据传入URL的主机名(或域或IP)和来自这些队列的取取器线程轮询将传入的URL放置到内部队列中。默认情况下，StormCrawler只允许每个内部队列一个取取线程，这样爬行是礼貌的，并且不会太频繁地向目标主机发送请求。

如果您还没有这样做，我建议您查看有关YouTube的视频教程。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49453608

复制

相似问题

问StormCrawler设置
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问StormCrawler设置EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问StormCrawler设置
EN