首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google应用引擎:获取大量的urls和数据处理

Google应用引擎:获取大量的urls和数据处理
EN

Stack Overflow用户
提问于 2015-01-25 15:37:06
回答 1查看 59关注 0票数 0

在我的应用程序中,我获取大量的urls和解析信息。我正在尝试使用延迟库和任务队列。我将每个页面的抓取分割成单独的任务,并进行以下处理。以下是延迟任务的示例:

代码语言:javascript
复制
def deftask(somevalue, pagenumber):
    fetch url
    parse with beautiful soup
    some processing
    saving to datastore

之后,在post处理程序中,我在循环中运行这个任务:

代码语言:javascript
复制
for i in range(0, 200):
     deferred.defer(deftask, somevalue, i)

因此,只需200次迭代,大约需要5-8分钟。那是很长的时间。

任务队列的性能相同。我还以循环方式发送任务:

代码语言:javascript
复制
taskqueue.add(url='/taskhandler', params = {'page' : i}, transactional=True)

只有一个队列。

那么我的问题是我怎样才能提高性能呢?

我应该改变一下我的方法吗?或者可能是护目镜应用引擎不适合这个目标?我应该把我的项目转移到VPS托管与django或等等?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-01-26 07:43:22

例如,可以通过将速率设置为10/s来控制queue.yaml中的执行时间。确保您的模块配置设置为自动缩放,或者使用适当的手动缩放。

代码语言:javascript
复制
queue:
- name: default
  rate: 5/s

另外,查看日志并查找失败的任务,这可能是它们需要这么多时间来完成的原因。

对每个任务使用分隔的任务:

代码语言:javascript
复制
fetch url
parse with beautiful soup
some processing
saving to datastore

因此,如果parse with beautiful soup失败,它将不再获取这个url,而是从数据存储中获取该内容。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28138131

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档