我正在做一个网络爬虫的项目,从内部网站获取一些信息。我发现静态页面可以通过几个简单的步骤(设置cookie,然后使用Cmdlet Invoke-RestMethod)来捕获,但是动态页面的数据不能通过这种方式获得。此外,我发现动态页面上的链接并不是持续不断的,例如,它总是由jsessionid或其他东西组成,它们总是随时间而变化。
有人能给我一个提示来解决这个问题吗?爬虫能抓取动态网页吗?谢谢..。
发布于 2017-02-13 15:21:49
也许可以下载字符串,这应该会拉出HTML,你可以从那里拉出你的数据,即使它是动态的,因为它是及时的快照。
或
$site = "cnn.com"
$sitedata = invoke-webrequest $site
$sitedata.rawcontenthttps://stackoverflow.com/questions/42196969
复制相似问题