首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scrapy管理动态爬行器

Scrapy管理动态爬行器
EN

Stack Overflow用户
提问于 2013-07-02 17:17:48
回答 1查看 964关注 0票数 3

我正在建设一个项目,我需要一个网络爬虫爬行不同的网页列表。此列表可以随时更改。这是如何用scrapy最好地实现的?我应该为所有网站创建一个爬虫,还是动态创建蜘蛛?

我读过关于scrapyd的文章,我猜动态创建爬行器是最好的方法。不过,我需要一个关于如何实现它的提示。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-09-12 15:43:35

如果解析逻辑相同,则有两种方法,

  1. 对于大量网页,您可以创建一个列表并在开头读取该列表,最好使用start_requests方法或在构造函数中,然后将该列表分配给start_urls
  2. You可以将网页链接作为参数从命令行参数传递给爬行器,同样,在requests_method或构造函数中也可以访问此参数并将其分配给start_urls

在scrapy中传递参数

代码语言:javascript
复制
    scrapy crawl spider_name -a start_url=your_url

在scrapyd中用-d替换-a

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17421766

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档