首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于抓取的Nutch正则表达式

用于抓取的Nutch正则表达式
EN

Stack Overflow用户
提问于 2013-05-23 18:40:37
回答 1查看 387关注 0票数 0

我正在使用Apache Nutch来抓取网页。当我搜索特定的名字时,我想抓取网页,例如,如果我搜索比尔盖茨,我想获得该搜索结果的结果链接。我有像这样的网址

代码语言:javascript
复制
www.mysite.com/search?name=bill+gates

但在爬行时,它不再显示要获取的url。实际上,它不会获取任何结果。

有没有抓取该页面的选项?我在regex-urlfilter.txt中添加了接受所有内容的代码。我该如何抓取链接?提前谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-23 18:53:57

在我的记忆中,nutch有一个额外的设置,可以切断url参数,比如?q=bill+gates。我认为此设置位于automaton-urlfilter.txt中:

代码语言:javascript
复制
# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

所以你得改变这一行。

希望我能帮到你

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16711801

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档