首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch路径错误

Nutch路径错误
EN

Stack Overflow用户
提问于 2011-10-28 12:12:05
回答 2查看 3K关注 0票数 2

你好,我在Ubuntu上安装了solr和nutch。我能够爬行和索引偶然,但不是所有的时间。我不断地收到这个路径错误,并且在网上找不到解决方案。通常,我会删除有错误的目录并重新运行,它会运行得很好。但我不想再这样做了。导致该错误的原因是什么?谢谢。

代码语言:javascript
复制
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027224701
LinkDb: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840/parse_data
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
    at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201)
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175)
    at org.apache.nutch.crawl.LinkDb.run(LinkDb.java:290)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.LinkDb.main(LinkDb.java:255)
EN

回答 2

Stack Overflow用户

发布于 2012-05-06 09:27:28

你一定是杀了一个Nutch进程。只需清除目录、crawldb等,就可以运行了。

Nutch首先在抓取路径中查找一个现成的链接数据库(linkdb),如果找不到它,就从您给出的种子文件中创建一个新的。如果终止爬网进程,则会导致从链接数据库读取失败。

票数 1
EN

Stack Overflow用户

发布于 2011-12-12 18:58:12

代码语言:javascript
复制
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

检查爬网文件夹是否存在以及是否具有适当的权限,并且您需要像在新版本中一样使用-linkdb。出现此错误的主要原因是您为crawldb、linkdb和segements指定的路径不正确。

我有同样的问题,我使用了上面的语法,它起作用了。只需检查您指定的文件夹是否正确即可。

使用这个,

http://thetechietutorials.blogspot.com/2011/06/solr-and-nutch-integration.html

对我很管用。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7925080

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档