文章/答案/技术大牛

发布

社区首页 >问答首页 >用于抓取的Nutch正则表达式

问用于抓取的Nutch正则表达式
EN

Stack Overflow用户

提问于 2013-05-23 18:40:37

回答 1查看 387关注 0票数 0

我正在使用Apache Nutch来抓取网页。当我搜索特定的名字时，我想抓取网页，例如，如果我搜索比尔盖茨，我想获得该搜索结果的结果链接。我有像这样的网址

www.mysite.com/search?name=bill+gates

但在爬行时，它不再显示要获取的url。实际上，它不会获取任何结果。

有没有抓取该页面的选项？我在regex-urlfilter.txt中添加了接受所有内容的代码。我该如何抓取链接？提前谢谢。

回答已采纳

发布于 2013-05-23 18:53:57

在我的记忆中，nutch有一个额外的设置，可以切断url参数，比如?q=bill+gates。我认为此设置位于automaton-urlfilter.txt中：

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

所以你得改变这一行。

希望我能帮到你

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16711801

复制

相似问题

问用于抓取的Nutch正则表达式EN