文章/答案/技术大牛

发布

社区首页 >问答首页 >Web-Crawler黑名单

问Web-Crawler黑名单
EN

Stack Overflow用户

提问于 2015-12-15 21:35:40

回答 2查看 1K关注 0票数 0

我想抓取网站的基础上，是链接到网页的HTML。

然而，我担心的是，最终会出现各种各样的“不太适合儿童的网站”。有没有人知道一个黑名单网站，我可以开始实施我自己的过滤器，以避免(至少一些)着色器的地方？

谢谢!

web-crawler

blacklist

回答 2

Stack Overflow用户

发布于 2015-12-16 22:06:17

图卢兹大学()为保存良好的不同类型黑名单提供了一个非常好的来源。你可以找到他们这里。

另一种方法是使用有重点的爬虫，让分类器决定是否值得对特定的感兴趣领域进行抓取。

票数 3

Stack Overflow用户

发布于 2015-12-16 10:27:24

一种稍微不同的方法是使用opendns家族并在运行爬虫的服务器上配置DNS。然后，您可以在爬虫中使用自定义筛选器来检测由opendns过滤的页面，并防止它们被索引或存储。

您不需要处理和管理黑名单，而让opendns代替您这样做。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34299839

复制

相似问题

问Web-Crawler黑名单
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web-Crawler黑名单EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web-Crawler黑名单
EN