已经尝试搜索这个问题,但是找不到任何有用的东西。
https://wiki.apache.org/nutch/NutchTutorial中的以下教程
用宾/纳奇验证了拉奇,它很好
安装java 8
java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)并包括在通兴出口
export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"注意使用windows,因此也使用cygwin64。
添加了目录url并添加了带有一个url的文件seed.txt
跑动
bin/nutch inject crawl/crawldb urls/seed.txt然后获得以下错误:
注入器: crawlDb:爬行/爬行db注入器: urlDir: urls/seed.txt注入器:将注入的urls转换为爬行db条目。注入器: java.io.IOException:锁文件爬行/爬行/锁定已经存在。
发布于 2019-12-15 19:06:04
嗨,这个问题有两部分:
1.爬行数据库文件夹中已经存在.locked文件。只需删除.locked文件即可。
2.为%JAVA_HOME%\bin和%HADOOP_HOME%\bin设置系统环境变量路径,然后使用不带bin的%JAVA_HOME%和%HADOOP_HOME%设置用户环境变量。
发布于 2018-06-04 11:22:55
错误信息非常清楚:另一个Nutch作业持有CrawlDb resp的锁。在作业成功后,锁文件被删除之前,它就崩溃了或者被杀死了。删除锁文件crawl/crawldb/.locked应该可以解决这个问题。但是查看日志文件(尤其是日志文件)也是很好的做法。找出锁文件未被删除的原因。
https://stackoverflow.com/questions/50673344
复制相似问题