遵循这里的Apache Nutch教程:
正如本教程中所指出的,我已经将regex-urlfilter.txt的最后一行设置为:
+^http://([a-z0-9]*\.)*nutch.apache.org/我的nutch-site.xml文件只包含以下几行
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>我的seed.txt文件是:
http://nutch.apache.org/然而,当我爬行时
bin/nutch crawl urls -dir crawl -depth 3 -topN 5我得到一个“没有URL要获取”的错误。有人知道为什么吗?
发布于 2012-06-23 13:12:37
配置对我来说看起来很好。您已经在运行时/本地文件夹中进行了这些更改,对吗?seed.txt将位于NUTCH_HOME/runtime/local/urls文件夹中,regex-urlfilter.txt和nutch-site.xml将位于NUTCH_HOME/runtime/local/conf文件夹中
NUTCH_HOME为安装目录
https://stackoverflow.com/questions/11143103
复制相似问题