我正在使用硒来‘废纸’网页寻找反向链接到我的网站。我一直在使用普通的curl来抓取,但是curl在JavaScript上玩得并不好(实际上它们根本不能玩)。
我的问题是,我需要来自我抓取的页面的HTTP头响应(200,301,404,503等)代码。理想情况下,我希望获得的IP地址的域名,我正在抓取以及。
我在下面的链接中使用php的facebook PHP webdriver,但我找不到如何检索任何标题信息。
https://github.com/facebook/php-webdriver
我的问题是,有没有办法让Selenium返回头信息和/或IP地址?
如果您不知道这个问题的答案,那么您有没有更好的方法来抓取或获取HTTP头?
提前谢谢。
发布于 2013-04-06 05:09:27
Selenium不做HTTP状态码或头文件。我从未使用过它,但通常建议使用的工具是BrowserMob proxy,它是由一个Selenium提交者创建的。它捕获请求和响应,包括报头、状态代码和计时信息。
https://stackoverflow.com/questions/15841438
复制相似问题