在我的应用程序中,我获取大量的urls和解析信息。我正在尝试使用延迟库和任务队列。我将每个页面的抓取分割成单独的任务,并进行以下处理。以下是延迟任务的示例:
def deftask(somevalue, pagenumber):
fetch url
parse with beautiful soup
some processing
saving to datastore之后,在post处理程序中,我在循环中运行这个任务:
for i in range(0, 200):
deferred.defer(deftask, somevalue, i)因此,只需200次迭代,大约需要5-8分钟。那是很长的时间。
任务队列的性能相同。我还以循环方式发送任务:
taskqueue.add(url='/taskhandler', params = {'page' : i}, transactional=True)只有一个队列。
那么我的问题是我怎样才能提高性能呢?
我应该改变一下我的方法吗?或者可能是护目镜应用引擎不适合这个目标?我应该把我的项目转移到VPS托管与django或等等?
发布于 2015-01-26 07:43:22
例如,可以通过将速率设置为10/s来控制queue.yaml中的执行时间。确保您的模块配置设置为自动缩放,或者使用适当的手动缩放。
queue:
- name: default
rate: 5/s另外,查看日志并查找失败的任务,这可能是它们需要这么多时间来完成的原因。
对每个任务使用分隔的任务:
fetch url
parse with beautiful soup
some processing
saving to datastore因此,如果parse with beautiful soup失败,它将不再获取这个url,而是从数据存储中获取该内容。
https://stackoverflow.com/questions/28138131
复制相似问题