我正在尝试建立一个这个网站http://theaccelblog.squarespace.com/的import.io爬虫,但当我点击“下一步”到下一页训练,它把我带回第一页,因为正在使用的分页系统。非常感谢任何关于如何让import.io爬虫爬行通过这些页面的建议。根据import.io网站上的建议,我试图在与服务器交换的数据包中找到分页系统,但没有成功。如果你能帮上忙,谢谢。JRH
发布于 2015-09-11 17:46:59
我使用批量提取来创建一个API。
https://import.io/data/mine/?id=bc7d67f2-24d3-4b5c-b134-01544430998a
如果您使用下面的偏移量分页,您可以将其批量输入并获得所需的数据。
http://theaccelblog.squarespace.com/?offset=1418833411427
http://theaccelblog.squarespace.com/?offset=1409932229141
http://theaccelblog.squarespace.com/?offset=1402342675828
http://theaccelblog.squarespace.com/?offset=1397601000000
http://theaccelblog.squarespace.com/?offset=1397511000000
http://theaccelblog.squarespace.com/?offset=1390543200000
http://theaccelblog.squarespace.com/?offset=1375383600000
http://theaccelblog.squarespace.com/?offset=1359748800000
http://theaccelblog.squarespace.com/?offset=1285959600000 谢谢,
脑磁图
https://stackoverflow.com/questions/32301580
复制相似问题