首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache 1.x注入爬行错误

Apache 1.x注入爬行错误
EN

Stack Overflow用户
提问于 2018-06-04 04:18:45
回答 2查看 1.6K关注 0票数 2

已经尝试搜索这个问题,但是找不到任何有用的东西。

https://wiki.apache.org/nutch/NutchTutorial中的以下教程

用宾/纳奇验证了拉奇,它很好

安装java 8

代码语言:javascript
复制
java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

并包括在通兴出口

代码语言:javascript
复制
export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"

注意使用windows,因此也使用cygwin64。

添加了目录url并添加了带有一个url的文件seed.txt

跑动

代码语言:javascript
复制
bin/nutch inject crawl/crawldb urls/seed.txt

然后获得以下错误:

注入器: crawlDb:爬行/爬行db注入器: urlDir: urls/seed.txt注入器:将注入的urls转换为爬行db条目。注入器: java.io.IOException:锁文件爬行/爬行/锁定已经存在。

EN

回答 2

Stack Overflow用户

发布于 2019-12-15 19:06:04

嗨,这个问题有两部分:

1.爬行数据库文件夹中已经存在.locked文件。只需删除.locked文件即可。

2.为%JAVA_HOME%\bin%HADOOP_HOME%\bin设置系统环境变量路径,然后使用不带bin的%JAVA_HOME%%HADOOP_HOME%设置用户环境变量。

票数 1
EN

Stack Overflow用户

发布于 2018-06-04 11:22:55

错误信息非常清楚:另一个Nutch作业持有CrawlDb resp的锁。在作业成功后,锁文件被删除之前,它就崩溃了或者被杀死了。删除锁文件crawl/crawldb/.locked应该可以解决这个问题。但是查看日志文件(尤其是日志文件)也是很好的做法。找出锁文件未被删除的原因。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50673344

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档