首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >IOException IOException #Crawl.run() -> #JobClient.runJob()

IOException IOException #Crawl.run() -> #JobClient.runJob()
EN

Stack Overflow用户
提问于 2013-03-31 16:12:29
回答 1查看 180关注 0票数 0

我和nutch是新来的,所以请容忍我。在我的一个测试爬行过程中,我遇到了一个IOException。我使用的是Nutch1.6和Hadoop0.20.2(在设置文件访问权限时选择此版本是为了windows兼容)。

我正在运行nutch在eclipse中。我按照本指南从SVN:http://wiki.apache.org/nutch/RunNutchInEclipse导入nutch

我的爬虫代码来自这个网站:http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/

以下是系统异常日志:

solrUrl未设置,索引将被跳过.

爬行开始:爬

rootUrlDir = urls

线程=1

深度=1

solrUrl=null

topN =1

喷射器: 2013-03-31 23:51:11

注射器: crawlDb:爬行/爬行b

注射器: urlDir: urls

注入器:将注入的urls转换为爬行db条目。

代码语言:javascript
复制
java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:
    at rjpb.sp.crawler.CrawlerTest.main(CrawlerTest.java:51)

在#Injector.inject()之前,我在Crawl.java中看到了这些涉及路径的调用

代码语言:javascript
复制
Path crawlDb = new Path(dir + "/crawldb"); 
Path linkDb = new Path(dir + "/linkdb"); 
Path segments = new Path(dir + "/segments"); 
Path indexes = new Path(dir + "/indexes"); 
Path index = new Path(dir + "/index");

目前,我的eclipse项目不包括文件夹爬行,链接数据库,段.我认为我的问题是,我没有设置所有必要的文件爬行。我只设置了nutch-site.xml、regex-urlfilter.txt和urls/seed.txt。任何关于这件事的建议都会有很大的帮助。谢谢!

EN

回答 1

Stack Overflow用户

发布于 2013-03-31 23:21:08

当我尝试在Windows上运行Nutch1.6时,我没有取得多大的成功。我下载了在Windows中运行的最新版本(Nutch1.2),没有任何问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15731486

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档