首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >芹菜工作线程并发

芹菜工作线程并发
EN

Stack Overflow用户
提问于 2017-12-23 23:20:51
回答 1查看 3.6K关注 0票数 3

我已经做了一个刮刀来扫描大约150个链接。每个链接都有大约5k个子链接可以从中获取信息。

我使用Celery在后台运行scraper,并将数据存储在Django ORM上。我使用BeautifulSoup作为废料网址。

当我使用以下命令运行celery时

celery worker -A ... --concurrency=50

除了从1到50睡眠的工人,一切都很好。

我怎样才能让芹菜一直工作到刮刀完成它的任务?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-12-23 23:58:00

首先,该命令不会启动50个工作进程,而是启动一个具有50个进程的工作进程。我还建议使用尽可能多的进程,只要你有可用的内核。(对于我剩下的答案,假设是8。)

我的猜测是,其他进程是空闲的,因为您只执行了一个任务。如果你想做并发工作,你必须将你的工作拆分成可以并发执行的部分。要做到这一点,最简单的方法就是为每个想要抓取的链接创建一个单独的任务。然后工人将开始抓取8个链接,当它完成1,它将开始下一个,直到它完成了所有150个。

因此,您的任务调用代码应该大致如下:

代码语言:javascript
复制
for link in links:
    scrape_link.delay(link)

使用scrape_link,您的任务函数将如下所示:

代码语言:javascript
复制
@app.task
def scrape_link(link):
    #scrape the link and its sub-links
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47953643

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档