首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache Nutch -路径问题

Apache Nutch -路径问题
EN

Stack Overflow用户
提问于 2015-11-15 16:50:13
回答 1查看 597关注 0票数 9

我正在尝试设置Apache Nutch抓取URL,遵循this指南。作为一个较老的指南(该指南适用于1.x版,我使用的是2.3版),我对结构进行了必要的更改。但是,当我尝试运行爬网时,我得到以下错误:

代码语言:javascript
复制
root@IndiStage:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2
No SOLRURL specified. Skipping indexing.
Injecting seed URLs
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
Error running:
  /usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Failed with exit value 1.
root@IndiStage:~#

作为Ubuntu (14.04)的新手,我发现在这里很难管理目录结构和路径。

InjectorJob/usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl

JAVA_HOME设置为/usr/lib/jvm/java-7-openjdk-amd64

EN

回答 1

Stack Overflow用户

发布于 2016-03-12 03:48:36

确保您已经编译了Nutch源代码。然后,从${APACHE_NUTCH_HOME}/runtime/local (或${APACHE_NUTCH_HOME}/runtime/deploy/bin)运行爬网命令。

希望这能帮上忙

Le Quoc Do

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33717915

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档