文章/答案/技术大牛

发布

社区首页 >问答首页 >如何通过nutch爬网脚本设置topN

问如何通过nutch爬网脚本设置topN
EN

Stack Overflow用户

提问于 2014-12-09 00:34:16

回答 1查看 357关注 0票数 0

我正试图抓取一个url是http://def.com/xyz/(say)的网页，它有2000多个输出url，但当我查询solr时，它显示的文档不到50个，而我期望显示大约2000个文档。我使用以下查询：

./crawl urls TestCrawl http://localhost:8983/solr/ -depth 2 -topN 3000

控制台输出为：

Injector: starting at 2014-12-08 21:36:15
Injector: crawlDb: TestCrawl/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Injector: Total number of urls rejected by filters: 0
Injector: Total number of urls after normalization: 1
Injector: Merging injected urls into crawl db.
Injector: overwrite: false
Injector: update: false
Injector: URLs merged: 1
Injector: Total new urls injected: 0
Injector: finished at 2014-12-08 21:36:18, elapsed: 00:00:02

我假设不知何故nutch不能从爬虫脚本中获取topN值。

solr

web-crawler

nutch

回答 1

Stack Overflow用户

发布于 2014-12-10 01:57:25

请验证nutch配置中的属性db.max.outlinks.per.page。将此值更改为更大的数字，或更改为-1以对所有urls进行爬网和索引。

希望这能帮上忙

Le Quoc Do

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27362491

复制

相似问题

问如何通过nutch爬网脚本设置topN
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过nutch爬网脚本设置topNEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过nutch爬网脚本设置topN
EN