我计划调整Nutch2.2.X这样的方式,在网站列表的初始爬行之后,我每天启动爬虫,并获得HTML或新页面的纯文本,仅在这一天出现。网站数量:数百个。
请注意,我不感兴趣的更新,只有新的网页。此外,我需要新的网页,只有从一个日期开始。让我们假设现在是“初始爬行”的日期。
阅读文档和搜索网络iI有以下问题,其他任何地方都找不到:
有很多Nutch问题/答案/教程,我在网上搜索了两个星期,但还没有找到上面问题的答案。
发布于 2015-04-02 07:16:46
我也不使用solr。我刚刚查看了这个文档:https://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html
似乎有一些命令提示可以显示使用WebDB获取的数据。我对Nutch不熟悉,但我只关注这份文件。看看这个。
https://stackoverflow.com/questions/24034599
复制相似问题