我在网站上看到,nutch从每个链接等式中获取链接到topN。我有4个链接,但当nutch抓取我的链接时,所有返回的结果都等于topN。这意味着如果我有4个链接,topN = 10,nutch从所有链接中提取10个链接,而不是爬虫的每个link.end我都有10个链接。帮帮我。
发布于 2012-01-16 16:31:19
从另一个角度看,topN指的是从depth的每个级别获取多少文档。depth意味着要执行多少个生成/获取/更新周期才能获得完整的页面覆盖率。
https://stackoverflow.com/questions/8222904
复制相似问题