文章/答案/技术大牛

发布

社区首页 >问答首页 >Apache 1.x注入爬行错误

问Apache 1.x注入爬行错误
EN

Stack Overflow用户

提问于 2018-06-04 04:18:45

回答 2查看 1.6K关注 0票数 2

已经尝试搜索这个问题，但是找不到任何有用的东西。

https://wiki.apache.org/nutch/NutchTutorial中的以下教程

用宾/纳奇验证了拉奇，它很好

安装java 8

java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

并包括在通兴出口

export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"

注意使用windows，因此也使用cygwin64。

添加了目录url并添加了带有一个url的文件seed.txt

跑动

bin/nutch inject crawl/crawldb urls/seed.txt

然后获得以下错误：

注入器: crawlDb:爬行/爬行db注入器: urlDir: urls/seed.txt注入器:将注入的urls转换为爬行db条目。注入器: java.io.IOException:锁文件爬行/爬行/锁定已经存在。

nutch

apache

回答 2

Stack Overflow用户

发布于 2019-12-15 19:06:04

嗨，这个问题有两部分：

1.爬行数据库文件夹中已经存在.locked文件。只需删除.locked文件即可。

2.为%JAVA_HOME%\bin和%HADOOP_HOME%\bin设置系统环境变量路径，然后使用不带bin的%JAVA_HOME%和%HADOOP_HOME%设置用户环境变量。

票数 1

Stack Overflow用户

发布于 2018-06-04 11:22:55

错误信息非常清楚:另一个Nutch作业持有CrawlDb resp的锁。在作业成功后，锁文件被删除之前，它就崩溃了或者被杀死了。删除锁文件crawl/crawldb/.locked应该可以解决这个问题。但是查看日志文件(尤其是日志文件)也是很好的做法。找出锁文件未被删除的原因。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50673344

复制

相似问题

问Apache 1.x注入爬行错误
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache 1.x注入爬行错误EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache 1.x注入爬行错误
EN