文章/答案/技术大牛

发布

社区首页 >问答首页 >在scraperwiki上保存和恢复CPU时间

问在scraperwiki上保存和恢复CPU时间
EN

Stack Overflow用户

提问于 2012-06-19 15:22:31

回答 1查看 287关注 0票数 0

这是我第一次这样做，所以我最好提前为我的新秀错误道歉。我试图从搜索州内名字和姓氏的第一页结果中抓取legacy.com。我是编程新手，并且使用scraperwiki来编写代码。它起作用了，但是我在10,000个ish查询有时间处理之前很久就用完了cpu时间。现在，我正在尝试保存进度，在时间不多时捕获，然后从中断的地方恢复。

我不能让保存起作用，对其他部分的任何帮助也将不胜感激。到目前为止，我只是抓取链接，但如果有一种方法可以保存链接页面的主要内容，这也是非常有帮助的。

下面是我的代码：

import scraperwiki

from urllib import urlopen
from BeautifulSoup import BeautifulSoup

f = open('/tmp/workfile', 'w')
#read database, find last, start from there

def searchname(fname, lname, id, stateid):
    url = 'http://www.legacy.com/ns/obitfinder/obituary-search.aspx?daterange=Last1Yrs&firstname= %s &lastname= %s &countryid=1&stateid=%s&affiliateid=all' % (fname, lname, stateid)
    obits=urlopen(url)
    soup=BeautifulSoup(obits)
    obits_links=soup.findAll("div", {"class":"obitName"})
    print obits_links
    s = str(obits_links)
    id2 = int(id)
    f.write(s)
    #save the database here
    scraperwiki.sqlite.save(unique_keys=['id2'], data=['id2', 'fname', 'lname', 'state_id', 's'])


# Import Data from CSV
import scraperwiki
data = scraperwiki.scrape("https://dl.dropbox.com/u/14390755/legacy.csv")
import csv
reader = csv.DictReader(data.splitlines())
for row in reader:
    #scraperwiki.sqlite.save(unique_keys=['id'], 'fname', 'lname', 'state_id', data=row)
    FNAME = str(row['fname'])
    LNAME = str(row['lname'])
    ID = str(row['id'])
    STATE = str(row['state_id'])
    print "Person: %s %s" % (FNAME,LNAME)
    searchname(FNAME, LNAME, ID, STATE)


f.close()
f = open('/tmp/workfile', 'r')
data = f.read()
print data

python

save

screen-scraping

scraperwiki

回答 1

Stack Overflow用户

发布于 2012-07-08 11:30:20

在CSV循环的底部，用save_var编写每个fname+lname+state组合。然后，就在该循环之前，添加另一个循环，该循环遍历这些行，而不处理它们，直到传递保存的值为止。

您应该能够将整个web页面写入数据存储，但我还没有测试过这一点。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11096219

复制

相似问题

问在scraperwiki上保存和恢复CPU时间
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在scraperwiki上保存和恢复CPU时间EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在scraperwiki上保存和恢复CPU时间
EN