文章/答案/技术大牛

发布

社区首页 >问答首页 >芹菜工作线程并发

问芹菜工作线程并发
EN

Stack Overflow用户

提问于 2017-12-23 23:20:51

回答 1查看 3.6K关注 0票数 3

我已经做了一个刮刀来扫描大约150个链接。每个链接都有大约5k个子链接可以从中获取信息。

我使用Celery在后台运行scraper，并将数据存储在Django ORM上。我使用BeautifulSoup作为废料网址。

当我使用以下命令运行celery时

celery worker -A ... --concurrency=50

除了从1到50睡眠的工人，一切都很好。

我怎样才能让芹菜一直工作到刮刀完成它的任务？

python

django

celery

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-12-23 23:58:00

首先，该命令不会启动50个工作进程，而是启动一个具有50个进程的工作进程。我还建议使用尽可能多的进程，只要你有可用的内核。(对于我剩下的答案，假设是8。)

我的猜测是，其他进程是空闲的，因为您只执行了一个任务。如果你想做并发工作，你必须将你的工作拆分成可以并发执行的部分。要做到这一点，最简单的方法就是为每个想要抓取的链接创建一个单独的任务。然后工人将开始抓取8个链接，当它完成1，它将开始下一个，直到它完成了所有150个。

因此，您的任务调用代码应该大致如下：

for link in links:
    scrape_link.delay(link)

使用scrape_link，您的任务函数将如下所示：

@app.task
def scrape_link(link):
    #scrape the link and its sub-links

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47953643

复制

相似问题

问芹菜工作线程并发
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问芹菜工作线程并发EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问芹菜工作线程并发
EN