首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache :只抓取用于语义分析的新页面

Apache :只抓取用于语义分析的新页面
EN

Stack Overflow用户
提问于 2014-06-04 10:07:59
回答 1查看 427关注 0票数 0

我计划调整Nutch2.2.X这样的方式,在网站列表的初始爬行之后,我每天启动爬虫,并获得HTML或新页面的纯文本,仅在这一天出现。网站数量:数百个。

请注意,我不感兴趣的更新,只有新的网页。此外,我需要新的网页,只有从一个日期开始。让我们假设现在是“初始爬行”的日期。

阅读文档和搜索网络iI有以下问题,其他任何地方都找不到:

  1. ,我应该用什么后端来完成我的任务呢?,我只需要一次页面的文本,然后我就再也不回去了。MySQL似乎不是一种选择,因为gora不再支持它了。我试过使用HBase,但似乎必须回滚到Nutch2.1.x,才能使它正常工作。你有什么想法?如何将磁盘空间和其他资源利用率降到最低?
  2. 可以执行不使用索引引擎的任务,比如Solr?不确定是否需要存储大型全文索引。可以在没有Solr的情况下发射Nutch >2.2,它是否需要具体的选择来启动这种方式?教程没有清楚地解释这个问题:每个人都需要Solr,除了我。
  3. 如果我想将一个站点添加到爬行列表中,那么如何更好地执行它呢?,让我们假设我已经爬行了一个站点列表,并且希望从现在开始向列表中添加一个站点来监视它。因此,我需要抓取新的站点跳过页面内容,将其添加到WebDB中,然后像往常一样每天运行爬行。对于Nutch 1.x,可以执行单独的爬行,然后合并它们。对Nutch 2.x来说是什么样子?
  4. 可以在不使用自定义插件的情况下执行此任务,并且可以使用执行吗?可能会编写一个自定义插件,它可以检测页面是否已经编入索引,或者是新的,我们需要将内容放到XML或数据库中,等等。我应该编写插件吗?还是有一种方法可以用较少的血来解决这个任务?如果没有它的话,插件的算法会是什么样子呢?

有很多Nutch问题/答案/教程,我在网上搜索了两个星期,但还没有找到上面问题的答案。

EN

回答 1

Stack Overflow用户

发布于 2015-04-02 07:16:46

我也不使用solr。我刚刚查看了这个文档:https://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html

似乎有一些命令提示可以显示使用WebDB获取的数据。我对Nutch不熟悉,但我只关注这份文件。看看这个。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24034599

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档