首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch路径错误

Nutch路径错误
EN

Stack Overflow用户
提问于 2012-03-02 00:53:36
回答 2查看 1.1K关注 0票数 1

按照本教程的要求,使用http://wiki.apache.org/nutch/NutchTutorialhttp://www.nutchinstall.blogspot.com/

当我接受命令的时候

代码语言:javascript
复制
bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我有这个错误

代码语言:javascript
复制
LinkDb: adding segment: file:/C:/cygwin/home/LeHung/apache-nutch-1.4-bin/runtime/local/crawl/segments/20120301233259
LinkDb: adding segment: file:/C:/cygwin/home/LeHung/apache-nutch-1.4-bin/runtime/local/crawl/segments/20120301233337
Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/C:/cygwin/home/LeHung/apache-nutch-1.4-bin/runtime/local/crawl/segments/20120301221729/parse_data
Input path does not exist: file:/C:/cygwin/home/LeHung/apache-nutch-1.4-bin/runtime/local/crawl/segments/20120301221754/parse_data
Input path does not exist: file:/C:/cygwin/home/LeHung/apache-nutch-1.4-bin/runtime/local/crawl/segments/20120301221804/parse_data
        at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
        at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
        at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201)
        at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
        at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175)
        at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:149)
        at org.apache.nutch.crawl.Crawl.run(Crawl.java:143)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

我使用cygwin,windows来运行nutch

EN

回答 2

Stack Overflow用户

发布于 2021-12-03 09:30:12

检查是否按照上述错误中给出的路径显示了parse_data文件夹。确保已创建在命令中指定的crawl文件夹内的文件夹,并且这些文件夹可供使用。

票数 1
EN

Stack Overflow用户

发布于 2012-03-22 05:40:36

我也遇到过类似的问题。我删除了数据库和目录。在那之后,它运行正常。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9520475

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档