首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch爬虫:配置为只接受英文页面

Nutch爬虫:配置为只接受英文页面
EN

Stack Overflow用户
提问于 2014-10-17 09:32:17
回答 1查看 502关注 0票数 1

如何配置Nutch爬虫来只抓取的英文页面?

这是我在nutch-site.xml中设置的,但它不起作用:

代码语言:javascript
复制
<property>
    <name>http.accept.language</name>
    <value>en-us,en-gb,en;q=0.7,*;q=0.3</value>
    <description>Value of the "Accept-Language" request header field. This allows selecting non-English language as default one to retrieve. It is a useful setting for search engines build for certain national group.
    </description>
</property>
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-02 10:03:25

您设置的值:<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>意味着它更喜欢英语,但其他语言(*)仍然存在。对于只爬行英文页,应将值设置如下:

代码语言:javascript
复制
<value>en-us,en-gb,en</value>

为了确保,还可以更改nutch-default.xml中的值。

希望这能有所帮助

-Le Quoc Do

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26422064

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档