有几个网站在邮轮行业,我想刮掉。示例:http://www.silversea.com/cruise/cruise-results/?page_num=1 http://www.seabourn.com/find-luxury-cruise-vacation/FindCruises.action?cfVer=2&destCode=&durationCode=&dateCode=&shipCodeSearch=&portCode=
在某些场景中,比如第一个场景,结果页面遵循patten - ?page_num=1...17。然而,结果的数量将随着时间的推移而变化。
在第二种情况下,URL不会随分页而改变。
归根结底,我想要做的是将每个网站的结果放到一个文件中。
Q1:除了为场景1设置17个抓取器,然后随着时间的推移积极观察结果的增长/缩小之外,还有什么替代方案吗?
Q2:我完全搞不懂如何从第二个场景中抓取内容。
发布于 2015-07-09 04:48:15
Q1-来自(import.io)的免费工具不能主动观察数据随时间的变化。您可以通过Extractor提取大量数据(有17页,这将非常快),并将其添加到数据库中。在数据库中的每个条目之后,这些条目可以被去重或标记为唯一。您可以在Excel中手动执行此操作,也可以通过编程方式执行此操作。
他们的企业(数据即服务)可以为您做到这一点。
Q2-如果每个页面没有唯一的URL,那么唯一可以为您分页的工具就是Connector。
发布于 2015-07-09 06:10:47
我建议您构建一个提取器来获取分页。这个提取器的结果将是一个链接列表,每个链接对应一个页面。
这样,每次您运行应用程序时,页面数量发生变化,您将始终获得所有页面。
之后,调用每个页面以获取所需的数据。
提取器1:获取页面--输入:第一个URL
提取器2:获取项目(数据) --输入:来自提取器1的结果
https://stackoverflow.com/questions/31036804
复制相似问题