我正在使用this script抓取一些购物网站。我有一个很大的问题,这使得这个脚本和任何其他对我来说都没有价值。
我们计划抓取一个叫digikala (www.digikala.com)的购物网站的页面.问题是主产品网格从AJAX调用加载其数据。
例如这个页面:http://www.digikala.com/Search/Category-Mobile-Phone/#!/Brand-10/Category-Electronic-Devices/Category-Mobile/Category-Mobile-Phone/
如果您看到firebug/developer-console,您将看到此类别的products网格是在AJAX post调用之后加载的。那么我该如何抓取这个产品页面呢?
在获取页面之前添加一些等待(例如10秒)来解决这个问题?
发布于 2015-09-06 07:46:38
option1:使用浏览器模拟,作为phantomjs
option2:从开发者工具中检出ajax url,直接从url获取数据。要小心,可能需要特殊的头,或者某种验证。
https://stackoverflow.com/questions/32415687
复制相似问题