文章/答案/技术大牛

发布

社区首页 >问答首页 >IOException IOException #Crawl.run() -> #JobClient.runJob()

问IOException IOException #Crawl.run() -> #JobClient.runJob()
EN

Stack Overflow用户

提问于 2013-03-31 16:12:29

回答 1查看 180关注 0票数 0

我和nutch是新来的，所以请容忍我。在我的一个测试爬行过程中，我遇到了一个IOException。我使用的是Nutch1.6和Hadoop0.20.2(在设置文件访问权限时选择此版本是为了windows兼容)。

我正在运行nutch在eclipse中。我按照本指南从SVN：http://wiki.apache.org/nutch/RunNutchInEclipse导入nutch

我的爬虫代码来自这个网站：http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/

以下是系统异常日志：

solrUrl未设置，索引将被跳过.

爬行开始:爬

rootUrlDir = urls

线程=1

深度=1

solrUrl=null

topN =1

喷射器: 2013-03-31 23:51:11

注射器: crawlDb:爬行/爬行b

注射器: urlDir: urls

注入器:将注入的urls转换为爬行db条目。

java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:
    at rjpb.sp.crawler.CrawlerTest.main(CrawlerTest.java:51)

在#Injector.inject()之前，我在Crawl.java中看到了这些涉及路径的调用

Path crawlDb = new Path(dir + "/crawldb"); 
Path linkDb = new Path(dir + "/linkdb"); 
Path segments = new Path(dir + "/segments"); 
Path indexes = new Path(dir + "/indexes"); 
Path index = new Path(dir + "/index");

目前，我的eclipse项目不包括文件夹爬行，链接数据库，段.我认为我的问题是，我没有设置所有必要的文件爬行。我只设置了nutch-site.xml、regex-urlfilter.txt和urls/seed.txt。任何关于这件事的建议都会有很大的帮助。谢谢!

eclipse

apache

hadoop

nutch

回答 1

Stack Overflow用户

发布于 2013-03-31 23:21:08

当我尝试在Windows上运行Nutch1.6时，我没有取得多大的成功。我下载了在Windows中运行的最新版本(Nutch1.2)，没有任何问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15731486

复制

相似问题

问IOException IOException #Crawl.run() -> #JobClient.runJob()
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问IOException IOException #Crawl.run() -> #JobClient.runJob()EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问IOException IOException #Crawl.run() -> #JobClient.runJob()
EN