我和nutch是新来的,所以请容忍我。在我的一个测试爬行过程中,我遇到了一个IOException。我使用的是Nutch1.6和Hadoop0.20.2(在设置文件访问权限时选择此版本是为了windows兼容)。
我正在运行nutch在eclipse中。我按照本指南从SVN:http://wiki.apache.org/nutch/RunNutchInEclipse导入nutch
我的爬虫代码来自这个网站:http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/
以下是系统异常日志:
solrUrl未设置,索引将被跳过.
爬行开始:爬
rootUrlDir = urls
线程=1
深度=1
solrUrl=null
topN =1
喷射器: 2013-03-31 23:51:11
注射器: crawlDb:爬行/爬行b
注射器: urlDir: urls
注入器:将注入的urls转换为爬行db条目。
java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:
at org.apache.nutch.crawl.Crawl.run(Crawl.java:
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:
at rjpb.sp.crawler.CrawlerTest.main(CrawlerTest.java:51)在#Injector.inject()之前,我在Crawl.java中看到了这些涉及路径的调用
Path crawlDb = new Path(dir + "/crawldb");
Path linkDb = new Path(dir + "/linkdb");
Path segments = new Path(dir + "/segments");
Path indexes = new Path(dir + "/indexes");
Path index = new Path(dir + "/index");目前,我的eclipse项目不包括文件夹爬行,链接数据库,段.我认为我的问题是,我没有设置所有必要的文件爬行。我只设置了nutch-site.xml、regex-urlfilter.txt和urls/seed.txt。任何关于这件事的建议都会有很大的帮助。谢谢!
发布于 2013-03-31 23:21:08
当我尝试在Windows上运行Nutch1.6时,我没有取得多大的成功。我下载了在Windows中运行的最新版本(Nutch1.2),没有任何问题。
https://stackoverflow.com/questions/15731486
复制相似问题