像Crunchbase和Glassdoor这样的站点都受到Distil的保护,有什么方法可以编程地从这些站点获取数据吗?我在尝试Scrapy+Splash,但不知怎么他们能察觉到这一点。是否有其他方法使您的请求/javascript验证与浏览器无法区分?
发布于 2016-12-10 14:26:12
好吧,这可能不是非常正确的答案,而且也有点晚了,但是试着用吹奏器(我最喜欢的)跟踪浏览器,检查urls、标头、带有蒸馏标签的cookie、标头、cookie。您将看到.js请求具有查询参数PID=.
例如:

黄色的胶体请求是我得到的东西的一部分,当我在小提琴中搜索“提拔”时。接下来,第一次请求你看到的"/trsnsvdstl-ce.js“如果你要检查源代码,你会罚款的长PID=.还有,你可以看到很多包含D_XXX=的cookie,我认为最重要的是,如果您发出相同的请求,可以看到参数p=,然后是UrlDecode p,您会发现它很有趣,它有很多机器参数,比如浏览器中的工具,分辨率等等。这是指纹..。
嗯,在这一点上,我不能回答更多,只是开始着手这个。而且,什么能帮助一个人,但成本是好的,我说的不是免费的,慢的,我说的是像亚马逊云一样的东西,在那里你可以设置浮云,所以如果它是代理的话,就连迪尔也看不见。
所以,现在就这样,对不起我的英语,祝你好运!)
https://stackoverflow.com/questions/40556967
复制相似问题