如何配置Nutch爬虫来只抓取的英文页面?
这是我在nutch-site.xml中设置的,但它不起作用:
<property>
<name>http.accept.language</name>
<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>
<description>Value of the "Accept-Language" request header field. This allows selecting non-English language as default one to retrieve. It is a useful setting for search engines build for certain national group.
</description>
</property>发布于 2014-12-02 10:03:25
您设置的值:<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>意味着它更喜欢英语,但其他语言(*)仍然存在。对于只爬行英文页,应将值设置如下:
<value>en-us,en-gb,en</value>为了确保,还可以更改nutch-default.xml中的值。
希望这能有所帮助
-Le Quoc Do
https://stackoverflow.com/questions/26422064
复制相似问题