首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >node-simplecrawler: ajaxed内容页面爬行问题

node-simplecrawler: ajaxed内容页面爬行问题
EN

Stack Overflow用户
提问于 2015-09-06 01:11:16
回答 1查看 184关注 0票数 1

我正在使用this script抓取一些购物网站。我有一个很大的问题,这使得这个脚本和任何其他对我来说都没有价值。

我们计划抓取一个叫digikala (www.digikala.com)的购物网站的页面.问题是主产品网格从AJAX调用加载其数据。

例如这个页面:http://www.digikala.com/Search/Category-Mobile-Phone/#!/Brand-10/Category-Electronic-Devices/Category-Mobile/Category-Mobile-Phone/

如果您看到firebug/developer-console,您将看到此类别的products网格是在AJAX post调用之后加载的。那么我该如何抓取这个产品页面呢?

在获取页面之前添加一些等待(例如10秒)来解决这个问题?

EN

回答 1

Stack Overflow用户

发布于 2015-09-06 07:46:38

option1:使用浏览器模拟,作为phantomjs

option2:从开发者工具中检出ajax url,直接从url获取数据。要小心,可能需要特殊的头,或者某种验证。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32415687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档