文章/答案/技术大牛

发布

社区首页 >问答首页 >使用import.io抓取分页结果的最佳方法

问使用import.io抓取分页结果的最佳方法
EN

Stack Overflow用户

提问于 2015-06-25 04:51:30

回答 2查看 1.2K关注 0票数 1

有几个网站在邮轮行业，我想刮掉。示例：http://www.silversea.com/cruise/cruise-results/?page_num=1 http://www.seabourn.com/find-luxury-cruise-vacation/FindCruises.action?cfVer=2&destCode=&durationCode=&dateCode=&shipCodeSearch=&portCode=

在某些场景中，比如第一个场景，结果页面遵循patten - ?page_num=1...17。然而，结果的数量将随着时间的推移而变化。

在第二种情况下，URL不会随分页而改变。

归根结底，我想要做的是将每个网站的结果放到一个文件中。

Q1:除了为场景1设置17个抓取器，然后随着时间的推移积极观察结果的增长/缩小之外，还有什么替代方案吗？

Q2:我完全搞不懂如何从第二个场景中抓取内容。

import.io

pagination

web-scraping

回答 2

Stack Overflow用户

发布于 2015-07-09 04:48:15

Q1-来自(import.io)的免费工具不能主动观察数据随时间的变化。您可以通过Extractor提取大量数据(有17页，这将非常快)，并将其添加到数据库中。在数据库中的每个条目之后，这些条目可以被去重或标记为唯一。您可以在Excel中手动执行此操作，也可以通过编程方式执行此操作。

他们的企业(数据即服务)可以为您做到这一点。

Q2-如果每个页面没有唯一的URL，那么唯一可以为您分页的工具就是Connector。

票数 1

Stack Overflow用户

发布于 2015-07-09 06:10:47

我建议您构建一个提取器来获取分页。这个提取器的结果将是一个链接列表，每个链接对应一个页面。

这样，每次您运行应用程序时，页面数量发生变化，您将始终获得所有页面。

之后，调用每个页面以获取所需的数据。

提取器1:获取页面--输入:第一个URL

提取器2:获取项目(数据) --输入:来自提取器1的结果

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31036804

复制

相似问题

问使用import.io抓取分页结果的最佳方法
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用import.io抓取分页结果的最佳方法EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用import.io抓取分页结果的最佳方法
EN