首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我正在遵循Nutch教程,并得到一个"No URLs to fetch“错误

我正在遵循Nutch教程,并得到一个"No URLs to fetch“错误
EN

Stack Overflow用户
提问于 2012-06-22 00:59:32
回答 1查看 269关注 0票数 0

遵循这里的Apache Nutch教程:

正如本教程中所指出的,我已经将regex-urlfilter.txt的最后一行设置为:

代码语言:javascript
复制
+^http://([a-z0-9]*\.)*nutch.apache.org/

我的nutch-site.xml文件只包含以下几行

代码语言:javascript
复制
<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

我的seed.txt文件是:

代码语言:javascript
复制
http://nutch.apache.org/

然而,当我爬行时

代码语言:javascript
复制
bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我得到一个“没有URL要获取”的错误。有人知道为什么吗?

EN

回答 1

Stack Overflow用户

发布于 2012-06-23 13:12:37

配置对我来说看起来很好。您已经在运行时/本地文件夹中进行了这些更改,对吗?seed.txt将位于NUTCH_HOME/runtime/local/urls文件夹中,regex-urlfilter.txt和nutch-site.xml将位于NUTCH_HOME/runtime/local/conf文件夹中

NUTCH_HOME为安装目录

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11143103

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档