我正在使用Apache Nutch来抓取网页。当我搜索特定的名字时,我想抓取网页,例如,如果我搜索比尔盖茨,我想获得该搜索结果的结果链接。我有像这样的网址
www.mysite.com/search?name=bill+gates但在爬行时,它不再显示要获取的url。实际上,它不会获取任何结果。
有没有抓取该页面的选项?我在regex-urlfilter.txt中添加了接受所有内容的代码。我该如何抓取链接?提前谢谢。
发布于 2013-05-23 18:53:57
在我的记忆中,nutch有一个额外的设置,可以切断url参数,比如?q=bill+gates。我认为此设置位于automaton-urlfilter.txt中:
# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*所以你得改变这一行。
希望我能帮到你
https://stackoverflow.com/questions/16711801
复制相似问题