首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Web-Crawler黑名单

Web-Crawler黑名单
EN

Stack Overflow用户
提问于 2015-12-15 21:35:40
回答 2查看 1K关注 0票数 0

我想抓取网站的基础上,是链接到网页的HTML。

然而,我担心的是,最终会出现各种各样的“不太适合儿童的网站”。有没有人知道一个黑名单网站,我可以开始实施我自己的过滤器,以避免(至少一些)着色器的地方?

谢谢!

EN

回答 2

Stack Overflow用户

发布于 2015-12-16 22:06:17

图卢兹大学()为保存良好的不同类型黑名单提供了一个非常好的来源。你可以找到他们这里

另一种方法是使用有重点的爬虫,让分类器决定是否值得对特定的感兴趣领域进行抓取。

票数 3
EN

Stack Overflow用户

发布于 2015-12-16 10:27:24

一种稍微不同的方法是使用opendns家族并在运行爬虫的服务器上配置DNS。然后,您可以在爬虫中使用自定义筛选器来检测由opendns过滤的页面,并防止它们被索引或存储。

您不需要处理和管理黑名单,而让opendns代替您这样做。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34299839

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档