首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何利用机器人保护(蒸馏网络)爬行数据库?

如何利用机器人保护(蒸馏网络)爬行数据库?
EN

Stack Overflow用户
提问于 2016-11-11 22:06:01
回答 1查看 2.1K关注 0票数 5

像Crunchbase和Glassdoor这样的站点都受到Distil的保护,有什么方法可以编程地从这些站点获取数据吗?我在尝试Scrapy+Splash,但不知怎么他们能察觉到这一点。是否有其他方法使您的请求/javascript验证与浏览器无法区分?

EN

回答 1

Stack Overflow用户

发布于 2016-12-10 14:26:12

好吧,这可能不是非常正确的答案,而且也有点晚了,但是试着用吹奏器(我最喜欢的)跟踪浏览器,检查urls、标头、带有蒸馏标签的cookie、标头、cookie。您将看到.js请求具有查询参数PID=.

例如:

黄色的胶体请求是我得到的东西的一部分,当我在小提琴中搜索“提拔”时。接下来,第一次请求你看到的"/trsnsvdstl-ce.js“如果你要检查源代码,你会罚款的长PID=.还有,你可以看到很多包含D_XXX=的cookie,我认为最重要的是,如果您发出相同的请求,可以看到参数p=,然后是UrlDecode p,您会发现它很有趣,它有很多机器参数,比如浏览器中的工具,分辨率等等。这是指纹..。

嗯,在这一点上,我不能回答更多,只是开始着手这个。而且,什么能帮助一个人,但成本是好的,我说的不是免费的,慢的,我说的是像亚马逊云一样的东西,在那里你可以设置浮云,所以如果它是代理的话,就连迪尔也看不见。

所以,现在就这样,对不起我的英语,祝你好运!)

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40556967

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档