我想抓取网站的基础上,是链接到网页的HTML。
然而,我担心的是,最终会出现各种各样的“不太适合儿童的网站”。有没有人知道一个黑名单网站,我可以开始实施我自己的过滤器,以避免(至少一些)着色器的地方?
谢谢!
发布于 2015-12-16 22:06:17
图卢兹大学()为保存良好的不同类型黑名单提供了一个非常好的来源。你可以找到他们这里。
另一种方法是使用有重点的爬虫,让分类器决定是否值得对特定的感兴趣领域进行抓取。
发布于 2015-12-16 10:27:24
一种稍微不同的方法是使用opendns家族并在运行爬虫的服务器上配置DNS。然后,您可以在爬虫中使用自定义筛选器来检测由opendns过滤的页面,并防止它们被索引或存储。
您不需要处理和管理黑名单,而让opendns代替您这样做。
https://stackoverflow.com/questions/34299839
相似问题