首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch 2.3不生成/爬行

Nutch 2.3不生成/爬行
EN

Stack Overflow用户
提问于 2016-02-10 04:43:11
回答 2查看 651关注 0票数 2

我是Nutch的新手。我已经安装了Nutch2.3,并让它工作到注入种子urls ($ Nutch _ROOT/运行时/本地/bin/nutch注入file:///path/to/seed/). )。

当我执行下一个命令时:$NUTCH_ROOT/runtime/local/bin/nutch生成-topN 10

我知道这个错误:

代码语言:javascript
复制
GeneratorJob: starting at 2016-02-09 23:31:01
GeneratorJob: Selecting best-scoring urls due for fetch.
GeneratorJob: starting
GeneratorJob: filtering: true
GeneratorJob: normalizing: true
GeneratorJob: topN: 10
GeneratorJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local1073670973_0001
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:227)
    at org.apache.nutch.crawl.GeneratorJob.generate(GeneratorJob.java:256)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:322)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.crawl.GeneratorJob.main(GeneratorJob.java:330)

对于从这里去哪里或寻找什么有什么建议吗?

任何在这个问题上的帮助将是非常感谢的!

EN

回答 2

Stack Overflow用户

发布于 2016-02-10 13:03:42

您的日志显示您正在运行一个nutch 2.3.1版本,并且您说您有一个2.3版本。

2.3.1版本增加了许多与其他技术的新兼容性(参见发布说明)。

也许你使用了两个不兼容的版本。

票数 0
EN

Stack Overflow用户

发布于 2016-02-11 09:13:18

你能检查一下磁盘上数据库的空间吗?因为在nutch 2.X中使用额外的数据库(Hbase,Cassandra.)也许你没有足够的空间来处理数据,时间文件或者其他.

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35306975

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档