我正在使用ScraperWiki从london-gazette.co.uk站点拉入链接。我如何编辑代码,以便在底部粘贴大量独立的搜索URL,它们都整理到相同的数据存储中?
现在我只需要粘贴新的URL,点击run,新的数据就会被添加到旧数据的后面,但我想知道是否有一种方法可以加快速度,让scraper同时处理多个URL?我将更改URL的“通知代码”部分:issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1
对不起-堆栈溢出的新手,我的编码知识几乎不存在,但代码在这里:https://scraperwiki.com/scrapers/links_1/edit/
发布于 2013-04-17 19:45:32
你链接的刮板似乎是空的,但我看过Rebecca Ratcliffe的原始刮板。如果您的URL是相同的,您只需将您的URL放入一个列表中,并使用for循环遍历它们:
urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1',
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1',
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1',
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1']
base_url = 'http://www.london-gazette.co.uk'
for u in urls:
starting_url = urlparse.urljoin(base_url, u)
scrape_and_look_for_next_link(starting_url)只需看看我复制并相应改编的this scraper。
https://stackoverflow.com/questions/16019573
复制相似问题