问Apache :只抓取用于语义分析的新页面
EN

Stack Overflow用户

提问于 2014-06-04 10:07:59

回答 1查看 427关注 0票数 0

我计划调整Nutch2.2.X这样的方式，在网站列表的初始爬行之后，我每天启动爬虫，并获得HTML或新页面的纯文本，仅在这一天出现。网站数量:数百个。

请注意，我不感兴趣的更新，只有新的网页。此外，我需要新的网页，只有从一个日期开始。让我们假设现在是“初始爬行”的日期。

阅读文档和搜索网络iI有以下问题，其他任何地方都找不到：

，我应该用什么后端来完成我的任务呢？，我只需要一次页面的文本，然后我就再也不回去了。MySQL似乎不是一种选择，因为gora不再支持它了。我试过使用HBase，但似乎必须回滚到Nutch2.1.x，才能使它正常工作。你有什么想法？如何将磁盘空间和其他资源利用率降到最低？
可以执行不使用索引引擎的任务，比如Solr?不确定是否需要存储大型全文索引。可以在没有Solr的情况下发射Nutch >2.2，它是否需要具体的选择来启动这种方式？教程没有清楚地解释这个问题:每个人都需要Solr，除了我。
如果我想将一个站点添加到爬行列表中，那么如何更好地执行它呢？，让我们假设我已经爬行了一个站点列表，并且希望从现在开始向列表中添加一个站点来监视它。因此，我需要抓取新的站点跳过页面内容，将其添加到WebDB中，然后像往常一样每天运行爬行。对于Nutch 1.x，可以执行单独的爬行，然后合并它们。对Nutch 2.x来说是什么样子？
可以在不使用自定义插件的情况下执行此任务，并且可以使用执行吗？可能会编写一个自定义插件，它可以检测页面是否已经编入索引，或者是新的，我们需要将内容放到XML或数据库中，等等。我应该编写插件吗?还是有一种方法可以用较少的血来解决这个任务？如果没有它的话，插件的算法会是什么样子呢？

有很多Nutch问题/答案/教程，我在网上搜索了两个星期，但还没有找到上面问题的答案。

nutch

web-crawler

回答 1

Stack Overflow用户

发布于 2015-04-02 07:16:46

我也不使用solr。我刚刚查看了这个文档：https://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html

似乎有一些命令提示可以显示使用WebDB获取的数据。我对Nutch不熟悉，但我只关注这份文件。看看这个。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24034599

复制

相似问题

问Apache :只抓取用于语义分析的新页面
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache :只抓取用于语义分析的新页面EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache :只抓取用于语义分析的新页面
EN