我遵循了nutch2教程并成功地将nutch与HBase集成--我的问题是当我在runtime/local/bin目录中使用以下命令./nutch crawl urls/seed.txt abc -depth 50 -topN 50爬行url时,
发生错误:
Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1552667151_0002
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:152)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)请给我解决办法。任何解决方案都将不胜感激。
发布于 2013-12-12 02:19:24
正如大多数人可能会建议的那样,hadoop.log是寻找更好的错误描述的好地方。在没有这些资料的情况下,我将作以下猜测:
下面是apache中发布的一个解决方案:https://issues.apache.org/jira/browse/HADOOP-7682另一种灵魂为它提供了一个修补程序:7682-1.0.x-win,如果这确实是您遇到的问题,那么使用上面提到的修补程序中提到的WinLocalFileSystem类,并通过在nutch -site.xml中添加以下内容来配置nutch来使用它:
<property>
<name>fs.file.impl</name>
<value>org.apache.nutch.util.WinLocalFileSystem</value>
<description>Enables patch for issue HADOOP-7682 on Windows
</description>
</property>https://stackoverflow.com/questions/19443561
复制相似问题