首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取网站并检测第三方cookies

抓取网站并检测第三方cookies
EN

Stack Overflow用户
提问于 2012-03-09 00:01:38
回答 2查看 1.2K关注 0票数 1

我正在编写一个爬虫,以记录所有的cookie是由设置数量的网站部署。我可以使用selenium在页面访问时获取设置的第一方cookie,但软件中的限制意味着它不会获取第三方cookie。有没有其他的工具可以选择所有的cookie?

谢谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-03-15 22:27:59

如果您将此作为一次性任务来执行,则可以使用类似于Firefox浏览器的FireCookie扩展,该扩展允许您导出所有cookie:http://www.softwareishard.com/blog/firecookie/

如果您希望自动执行此任务并定期运行它,请考虑如下解决方案:

  1. 首先获取需要爬网的页面列表。然后
  2. 将每个页面连续加载到web浏览器中。仅仅获取页面的HTML是不够的,因为您需要加载和处理所有可能设置cookie的javascript、iframe等等。它可能是一个无头浏览器,比如PhantomJS ( http://www.phantomjs.org/ )或其他一些解决方案,只要它像浏览器一样呈现页面即可。
  3. 使用诸如Charles proxy ( http://www.charlesproxy.com/ )之类的web代理来记录来自浏览器的所有网络请求。可以保存所记录的会话并对其进行处理,以提取所有cookie标头。Charles proxy有一个API可用于将会话导出到XML文件,因此您也可以自动化这一部分。
票数 1
EN

Stack Overflow用户

发布于 2012-03-09 15:58:08

我相信你可以使用RegEx和ie.GetCookie()从一个网站收集所有的cookie。我自己还没有尝试过,但就文档而言,我认为它会相当简单。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9620737

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档